MQTTS
https://arxiv.org/abs/2302.04215
https://github.com/b04901014/mqtts
A Vector Quantized Approach for Text to Speech Synthesis on Real-World Spontaneous Speech
https://www.marktechpost.com/2023/02/16/cmu-researchers-unveil-an-ai-system-for-human-like-text-to-speech-training-with-diverse-speech/
CMU Researchers Unveil An AI System for Human-like Text-to-Speech Training with Diverse Speech
CMU
開発、多様な話し言葉を使って人間らしい
音声合成
を行えるAIシステム
従来のテキスト音声合成(
text2speech
)システムが使っている注意機構(
attention mechanism
)の代わりに、状態空間モデル(
state space model
, SSM)という新しい層を用いて、テキストから音声への変換を行う
H3は、読み上げや演技などの制御された環境で録音されたコーパスではなく、
YouTube
や
Podcast
などの自然な話し言葉で構成された
コーパス
で訓練された
このことにより、H3は多様な話者や話題に対応できるだけでなく、
感情
や
アクセント
などの細かいニュアンスも表現できるようになった12。
Text2Speech