IndexTTS
https://index-tts.github.io/Project
https://github.com/index-tts/index-ttsindex-tts/index-tts
https://arxiv.org/abs/2502.05512IndexTTS: An Industrial-Level Controllable and Efficient Zero-Shot Text-To-Speech System
IndexTTSは、XTTSやTorToiSe TTSを基盤としたGPTスタイルの音声合成(TTS)モデルです。ピンインを利用して中国語の漢字の発音を矯正する能力や、句読点を用いて任意の位置でポーズを制御する能力を備えています。システムの複数のモジュールを強化し、話者条件特徴表現の改善やBigVGAN2の統合による音質向上を実現しました。何万時間ものデータで学習されており、XTTS、CosyVoice2、Fish-Speech、F5-TTSといった現在の人気TTSシステムを上回る、最先端の性能を達成しています。