IndexTTS2

https://gyazo.com/36359f91b8d3c868e40855cdd57a3eeb

既存の大規模自己回帰型テキスト音声合成（TTS）モデルは、音声の自然さにおいて優れていますが、トークン単位で生成を行う仕組みのため、合成音声の発話時間を正確に制御することが困難です。これは、動画の吹き替えなど、音声と映像の厳密な同期を必要とするアプリケーションにおいて大きな制約となります。

本論文では、IndexTTS2 を提案します。本モデルは、音声の発話時間制御に特化した新しい手法で、自己回帰モデルにも適用可能な一般的な方法です。この手法は2つの生成モードをサポートしています。