مدلهای انتها به انتهای گفتار به نوشتار به سیستمهایی گفته میشود که بدون نیاز به مراحل واسط یا جداسازی زیرسیستمها، ورودی صوتی را مستقیماً به متن تبدیل میکنند. این مدلها معمولاً از شبکههای عصبی عمیق مانند مدلهای توجهمحور یا شبکههای مبتنی بر ترانسفورمرها استفاده میکنند تا اطلاعات زمانی و محتوایی موجود در سیگنال صوتی را به خوبی پردازش کنند. در روشهای سنتی گفتار به نوشتار، مراحل جداگانهای برای استخراج ویژگیهای صوتی، شناسایی واجها و مدلسازی زبان نیاز بود، اما مدلهای انتها به انتها این فرآیندها را یکپارچه کرده و بهبودهایی در دقت و کارایی سیستمها ایجاد کردهاند.
یکی از مزایای اصلی مدلهای انتها به انتها، کاهش نیاز به مهندسی دستی ویژگیها و کاهش وابستگی به زبانهای واسط یا مدلهای آوایی پیچیده است. این مدلها با استفاده از دادههای عظیم و شبکههای عصبی عمیق قادرند الگوهای پیچیدهتری را در گفتار شناسایی کرده و بهطور خودکار قواعد زبانی و صوتی را یاد بگیرند. علاوه بر این، این مدلها انعطافپذیری بیشتری برای تطبیق با زبانهای مختلف و گویشهای متنوع دارند و میتوانند بهبودهای چشمگیری در زمینههایی مثل دسترسی بیشتر به تکنولوژیهای نوشتاری و کاهش خطای انسانی در پیادهسازی داشته باشند.
مدل توسعه یافته شده با تغییراتی که در بدنه آن انجام شده مجدد روی مجموعه داده اختصاصی تگ خورده داخل مجموعه آموزش دیده است. با توجه به نیاز اختصاصی ما برای تبدیل گفتار به نوشتار میکروفونی و تلفنی، سعی شده یک ساختار مناسبی برای در اختیار داشتن هر دو روی آن فراهم شود و موجب گردد تا بهینه تر از ریسورس استفاده گردد. همچنین روی مدیریت ورودی با مدت زمان طولانی مدت نیز تمرکز خوبی انجام شده و طبق ویژگی های آکوستیکی و شناسایی فعالیت صوتی، جداسازی قطعات و استفاده از آن بصورت موازی روی ساختار مدل پایه نیز تحت عنوان ماژول ابتدایی برای صوتهای طولانی پیادهسازی شده است.