VibeVoice

VibeVoiceは、テキストからポッドキャストなどの表現力豊かで長い形式のマルチスピーカー会話オーディオを生成するために設計された新しいフレームワークです。

VibeVoiceは、大規模言語モデル(LLM)を活用してテキストのコンテキストと対話フローを理解し、拡散ヘッドを活用して忠実度の高い音響の詳細を生成するネクストトークン拡散フレームワークを採用しています。このモデルは、最大4人の異なるスピーカーで最大 90 分間の音声を合成でき、多くの以前のモデルの一般的な 1-2 スピーカーの制限を超えています。

英語・中国語のみ

入力と出力の言語を合わせればそれ以外の言語もいけるらしい

日本語は話せるが、日本人の日本語ではないnomadoor.icon

2025/9/14

https://github.com/vibevoice-community/VibeVoicevibevoice-community/VibeVoice

https://huggingface.co/vibevoiceVibeVoice Community (Unofficial)

https://github.com/vibevoice-community/VibeVoice/issues/4VibeVoice: Summary of the Community License and Forks, The Future, and Downloading VibeVoice #4

Microsoft 公式の VibeVoice リポジトリが削除される直前のコミットを継承

学習コードなどを実装予定

2025/9/4くらい

コードとLargeモデルが削除される

ModelScopeにはまだある

https://www.modelscope.cn/models/microsoft/VibeVoice-Largemicrosoft/VibeVoice-Large

https://www.modelscope.cn/models/microsoft/VibeVoice-1.5Bmicrosoft/VibeVoice-1.5B

ライセンス

MITライセンス

ComfyUI実装

https://github.com/Enemyx-net/VibeVoice-ComfyUIEnemyx-net/VibeVoice-ComfyUI

https://www.reddit.com/r/StableDiffusion/comments/1n178o9/wip_comfyui_wrapper_for_microsofts_new_vibevoice/https://www.reddit.com/r/StableDiffusion/comments/1n2056h/wip2_comfyui_wrapper_for_microsofts_new_vibevoice/作者によるpost

https://github.com/wildminder/ComfyUI-VibeVoicewildminder/ComfyUI-VibeVoice

https://www.reddit.com/r/StableDiffusion/comments/1n1hc8f/vibevoice_for_comfyui/作者によるpost

TTS

ボイスクローン