ID-LoRA - work4ai

ID-LoRA

https://www.youtube.com/watch?v=6bWcMh18K6g

参照画像 1枚 + 短い参照音声 + テキストプロンプトから、その人がその場面でその内容を喋っているtalking headを生成する

従来のボイスクローン + audio+image2video は、音声が映像より先に出来あがってしまっているため、話し方や環境音を映像と一体化させづらい

ID-LoRAは、参照画像・参照音声・ノイズを同じ joint audio-video DiT に入れるため、プロンプトが音声と映像の両方にまたがって効くこと、映像側の出来事が音の自然さに寄与する等の利点がある

モデル

仕組みとしては両方同じだが、使っているデータセットが違う

CelebVHQの方が汎化は強いが、顔中心のデータが多いため、上半身込みの動画であればTalkVidの方が良いかもしれない

ComfyUIコアに実装

関係ない