instructTTS
InstructTTS: 自然言語でのスタイル記述可能な音声合成システム。VALL-Eは話者スタイルを数秒間の発話によって決定していたが、これはテキストで制御する。 「話者id + 話す内容 + 陰気で悲しい口調」というような指示で音声合成ができる。
https://gyazo.com/817d0f2691d325082f10a56105a36cd5https://gyazo.com/4e59fcd134951fbded32e73518e1bc26https://gyazo.com/4b7ae71e6fe02af600435d89e4d75705