ID-LoRA
https://www.youtube.com/watch?v=6bWcMh18K6g
https://id-lora.github.io/Project
https://github.com/ID-LoRA/ID-LoRA/tree/mainID-LoRA/ID-LoRA
https://arxiv.org/abs/2603.10256v1ID-LoRA: Identity-Driven Audio-Video Personalization with In-Context LoRA
参照画像 1枚 + 短い参照音声 + テキストプロンプト から、その人がその場面でその内容を喋っているtalking headを生成する
従来のボイスクローン + audio+image2video は、音声が映像より先に出来あがってしまっているため、話し方や環境音を映像と一体化させづらい
ID-LoRAは、参照画像・参照音声・ノイズを同じ joint audio-video DiT に入れるため、プロンプトが音声と映像の両方にまたがって効くこと、映像側の出来事が音の自然さに寄与する等の利点がある
モデル
https://huggingface.co/AviadDahan/LTX-2.3-ID-LoRA-TalkVid-3KAviadDahan/LTX-2.3-ID-LoRA-TalkVid-3K
https://huggingface.co/AviadDahan/LTX-2.3-ID-LoRA-CelebVHQ-3KAviadDahan/LTX-2.3-ID-LoRA-CelebVHQ-3K
仕組みとしては両方同じだが、使っているデータセットが違う
CelebVHQの方が汎化は強いが、顔中心のデータが多いため、上半身込みの動画であればTalkVidの方が良いかもしれない
cf. TalkVid / CelebV-HQ
ComfyUIコアに実装
🦊LTX-2.3#69ba79b3000000000091779d
関係ない
HyperLoRA