MQTTS
https://arxiv.org/abs/2302.04215https://github.com/b04901014/mqtts
A Vector Quantized Approach for Text to Speech Synthesis on Real-World Spontaneous Speech
https://www.marktechpost.com/2023/02/16/cmu-researchers-unveil-an-ai-system-for-human-like-text-to-speech-training-with-diverse-speech/CMU Researchers Unveil An AI System for Human-like Text-to-Speech Training with Diverse Speech
CMU開発、多様な話し言葉を使って人間らしい音声合成を行えるAIシステム
従来のテキスト音声合成(text2speech)システムが使っている注意機構(attention mechanism)の代わりに、状態空間モデル(state space model, SSM)という新しい層を用いて、テキストから音声への変換を行う
H3は、読み上げや演技などの制御された環境で録音されたコーパスではなく、YouTubeやPodcastなどの自然な話し言葉で構成されたコーパスで訓練された
このことにより、H3は多様な話者や話題に対応できるだけでなく、感情やアクセントなどの細かいニュアンスも表現できるようになった12。
Text2Speech