رد کردن پیوندها

سرویس گفتار به نوشتار (شنوا)

موضوع پروژه:
تاریخ شروع پروژه:

1402

مدت زمان اجرا:

13 ماه

مجری

معاونت متولی:

راهکارهای دیجیتال و هوشمندسازی

معرفی

مدل‌های انتها به انتهای گفتار به نوشتار به سیستم‌هایی گفته می‌شود که بدون نیاز به مراحل واسط یا جداسازی زیرسیستم‌ها، ورودی صوتی را مستقیماً به متن تبدیل می‌کنند. این مدل‌ها معمولاً از شبکه‌های عصبی عمیق مانند مدل‌های توجه‌محور یا شبکه‌های مبتنی بر ترانسفورمرها استفاده می‌کنند تا اطلاعات زمانی و محتوایی موجود در سیگنال صوتی را به خوبی پردازش کنند. در روش‌های سنتی گفتار به نوشتار، مراحل جداگانه‌ای برای استخراج ویژگی‌های صوتی، شناسایی واج‌ها و مدل‌سازی زبان نیاز بود، اما مدل‌های انتها به انتها این فرآیندها را یکپارچه کرده و بهبودهایی در دقت و کارایی سیستم‌ها ایجاد کرده‌اند. یکی از مزایای اصلی مدل‌های انتها به انتها، کاهش نیاز به مهندسی دستی ویژگی‌ها و کاهش وابستگی به زبان‌های واسط یا مدل‌های آوایی پیچیده است. این مدل‌ها با استفاده از داده‌های عظیم و شبکه‌های عصبی عمیق قادرند الگوهای پیچیده‌تری را در گفتار شناسایی کرده و به‌طور خودکار قواعد زبانی و صوتی را یاد بگیرند. علاوه بر این، این مدل‌ها انعطاف‌پذیری بیشتری برای تطبیق با زبان‌های مختلف و گویش‌های متنوع دارند و می‌توانند بهبودهای چشمگیری در زمینه‌هایی مثل دسترسی بیشتر به تکنولوژی‌های نوشتاری و کاهش خطای انسانی در پیاده‌سازی داشته باشند. مدل توسعه یافته شده با تغییراتی که در بدنه آن انجام شده مجدد روی مجموعه داده اختصاصی تگ خورده داخل مجموعه آموزش دیده است. با توجه به نیاز اختصاصی ما برای تبدیل گفتار به نوشتار میکروفونی و تلفنی، سعی شده یک ساختار مناسبی برای در اختیار داشتن هر دو روی آن فراهم شود و موجب گردد تا بهینه تر از ریسورس استفاده گردد. همچنین روی مدیریت ورودی با مدت زمان طولانی مدت نیز تمرکز خوبی انجام شده و طبق ویژگی های آکوستیکی و شناسایی فعالیت صوتی، جداسازی قطعات و استفاده از آن بصورت موازی روی ساختار مدل پایه نیز تحت عنوان ماژول ابتدایی برای صوت‌های طولانی پیاده‌سازی شده است.

هدف

اهداف ارائه خدمت:
  • مرکز تماس همراه اول
  • سوپر اپلیکیشن خدمات شاد
  • سرویس‌های هوشمند مرکز تحقیق و توسعه همراه اول

ضرورت

دستاوردها

حوزه های قابل بهره برداری