MAI-Voice-1
https://microsoft.ai/news/two-new-in-house-models/
blog
https://copilot.microsoft.com/labs/audio-expression
Demo
MAI-Voice-1 は超高速
音声生成モデル
で、1 つの GPU で 1 分の音声を 1 秒未満で生成できるため、現在利用可能な最も効率的な音声システムの 1 つとなっています。
TTS
というよりspeech生成モデル?
VibeVoice
と比べると音声の品質はかなり悪い
nomadoor.icon
#Microsoft_AI