VibeVoice
VibeVoiceは、テキストからポッドキャストなどの表現力豊かで長い形式のマルチスピーカー会話オーディオを生成するために設計された新しいフレームワークです。 VibeVoiceは、大規模言語モデル(LLM)を活用してテキストのコンテキストと対話フローを理解し、拡散ヘッドを活用して忠実度の高い音響の詳細を生成するネクストトークン拡散フレームワークを採用しています。 このモデルは、最大4人の異なるスピーカーで最大 90 分間の音声を合成でき、多くの以前のモデルの一般的な 1-2 スピーカーの制限を超えています。 英語・中国語のみ
入力と出力の言語を合わせればそれ以外の言語もいけるらしい
日本語は話せるが、日本人の日本語ではないnomadoor.icon
2025/9/14
Microsoft 公式の VibeVoice リポジトリが削除される直前のコミットを継承
学習コードなどを実装予定
2025/9/4くらい
コードとLargeモデルが削除される
ModelScopeにはまだある
ライセンス
ComfyUI実装