IndexTTS2
https://gyazo.com/36359f91b8d3c868e40855cdd57a3eeb
https://index-tts.github.io/index-tts2.github.io/Project
https://github.com/index-tts/index-ttsindex-tts/index-tts
https://huggingface.co/IndexTeam/IndexTTS-2IndexTeam/IndexTTS-2
https://arxiv.org/abs/2506.21619IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-Speech
既存の大規模自己回帰型テキスト音声合成(TTS)モデルは、音声の自然さにおいて優れていますが、トークン単位で生成を行う仕組みのため、合成音声の発話時間を正確に制御することが困難です。これは、動画の吹き替えなど、音声と映像の厳密な同期を必要とするアプリケーションにおいて大きな制約となります。
本論文では、IndexTTS2 を提案します。本モデルは、音声の発話時間制御に特化した新しい手法で、自己回帰モデルにも適用可能な一般的な方法です。この手法は2つの生成モードをサポートしています。
← IndexTTS