VibeVoice
https://microsoft.github.io/VibeVoice/Project
https://github.com/microsoft/VibeVoicemicrosoft/VibeVoice
https://arxiv.org/abs/2508.19205v1VibeVoice Technical Report
https://huggingface.co/microsoft/VibeVoice-1.5Bmicrosoft/VibeVoice-1.5B
https://huggingface.co/microsoft/VibeVoice-Largemicrosoft/VibeVoice-Large(404)
VibeVoiceは、テキストからポッドキャストなどの表現力豊かで長い形式のマルチスピーカー会話オーディオを生成するために設計された新しいフレームワークです。
VibeVoiceは、大規模言語モデル(LLM)を活用してテキストのコンテキストと対話フローを理解し、拡散ヘッドを活用して忠実度の高い音響の詳細を生成するネクストトークン拡散フレームワークを採用しています。 このモデルは、最大4人の異なるスピーカーで最大 90 分間の音声を合成でき、多くの以前のモデルの一般的な 1-2 スピーカーの制限を超えています。
英語・中国語のみ
入力と出力の言語を合わせればそれ以外の言語もいけるらしい
日本語は話せるが、日本人の日本語ではないnomadoor.icon
2025/9/14
https://github.com/vibevoice-community/VibeVoicevibevoice-community/VibeVoice
https://huggingface.co/vibevoiceVibeVoice Community (Unofficial)
https://github.com/vibevoice-community/VibeVoice/issues/4VibeVoice: Summary of the Community License and Forks, The Future, and Downloading VibeVoice #4
Microsoft 公式の VibeVoice リポジトリが削除される直前のコミットを継承
学習コードなどを実装予定
2025/9/4くらい
コードとLargeモデルが削除される
ModelScopeにはまだある
https://www.modelscope.cn/models/microsoft/VibeVoice-Largemicrosoft/VibeVoice-Large
https://www.modelscope.cn/models/microsoft/VibeVoice-1.5Bmicrosoft/VibeVoice-1.5B
ライセンス
MITライセンス
ComfyUI実装
https://github.com/Enemyx-net/VibeVoice-ComfyUIEnemyx-net/VibeVoice-ComfyUI
https://www.reddit.com/r/StableDiffusion/comments/1n178o9/wip_comfyui_wrapper_for_microsofts_new_vibevoice/https://www.reddit.com/r/StableDiffusion/comments/1n2056h/wip2_comfyui_wrapper_for_microsofts_new_vibevoice/作者によるpost
https://github.com/wildminder/ComfyUI-VibeVoicewildminder/ComfyUI-VibeVoice
https://www.reddit.com/r/StableDiffusion/comments/1n1hc8f/vibevoice_for_comfyui/作者によるpost
TTS
ボイスクローン