IndexTTS
https://index-tts.github.io/
Project
https://github.com/index-tts/index-tts
index-tts/index-tts
https://arxiv.org/abs/2502.05512
IndexTTS: An Industrial-Level Controllable and Efficient Zero-Shot Text-To-Speech System
IndexTTSは、
XTTS
や
TorToiSe TTS
を基盤としたGPTスタイルの音声合成(
TTS
)モデルです。
ピンイン
を利用して
中国語
の漢字の発音を矯正する能力や、句読点を用いて任意の位置でポーズを制御する能力を備えています。システムの複数のモジュールを強化し、話者条件特徴表現の改善やBigVGAN2の統合による音質向上を実現しました。何万時間ものデータで学習されており、XTTS、
CosyVoice2
、
Fish-Speech
、
F5-TTS
といった現在の人気TTSシステムを上回る、最先端の性能を達成しています。