ID-LoRA
https://www.youtube.com/watch?v=6bWcMh18K6g
参照画像 1枚 + 短い参照音声 + テキストプロンプト から、その人がその場面でその内容を喋っているtalking headを生成する 従来のボイスクローン + audio+image2video は、音声が映像より先に出来あがってしまっているため、話し方や環境音を映像と一体化させづらい ID-LoRAは、参照画像・参照音声・ノイズを同じ joint audio-video DiT に入れるため、プロンプトが音声と映像の両方にまたがって効くこと、映像側の出来事が音の自然さに寄与する等の利点がある
モデル
仕組みとしては両方同じだが、使っているデータセットが違う
CelebVHQの方が汎化は強いが、顔中心のデータが多いため、上半身込みの動画であればTalkVidの方が良いかもしれない
ComfyUIコアに実装
関係ない