MQTTS - work4ai

MQTTS

CMU開発、多様な話し言葉を使って人間らしい音声合成を行えるAIシステム

従来のテキスト音声合成（text2speech）システムが使っている注意機構（attention mechanism）の代わりに、状態空間モデル（state space model, SSM）という新しい層を用いて、テキストから音声への変換を行う

H3は、読み上げや演技などの制御された環境で録音されたコーパスではなく、YouTubeやPodcastなどの自然な話し言葉で構成されたコーパスで訓練された

このことにより、H3は多様な話者や話題に対応できるだけでなく、感情やアクセントなどの細かいニュアンスも表現できるようになった12。