در سالهای اخیر، چندین مدل تبدیل متن به گفتار با رویکرد انتها به انتها که آموزش تک مرحلهای و نمونهبرداری موازی را امکانپذیر میکنند، معرفی شدهاند؛ اما کیفیت نمونههای تولید شده توسط آنها با سیستمهای دو مرحلهای TTS برابری نمیکند. در سرویس بیان، ما از یک روش تبدیل متن به گفتار انتها به انتها و موازی استفاده میکنیم که صدایی طبیعیتر از مدلهای دو مرحلهای کنونی تولید میکند. روش ما از استنباط واریانسی همراه با جریانهای نرمالسازی و فرآیند آموزش رقابتی استفاده میکند که قدرت بیان مدلسازی مولد را بهبود میبخشد. همچنین، ما یک پیشبینیگر تصادفی مدت زمان پیشنهاد میکنیم که گفتار را با ریتمهای متنوع از متن ورودی تولید میکند. با مدلسازی عدم قطعیت روی متغیرهای پنهان و استفاده از این پیشبینیگر تصادفی مدت زمان، موجب ارتقای کیفیت خروجی و تولید صوت با زیر و بمها و ریتمهای متفاوت میشود.