🦊HunyuanVideo
🏠 | 🦊雑に学ぶComfyUI
👈 | 🦊LTX-Video
👉 | 🦊FramePack
参考
https://docs.comfy.org/tutorials/video/hunyuan-video#shared-models-for-all-workflows公式Doc
https://comfyanonymous.github.io/ComfyUI_examples/hunyuan_video/公式workflow
推奨設定値
解像度
720P (1280×720)
最大フレーム数
129f (5秒 × 24fps)
(4n + 1)f 推奨
モデルのダウンロード
https://huggingface.co/Comfy-Org/HunyuanVideo_repackaged/blob/main/split_files/diffusion_models/hunyuan_video_t2v_720p_bf16.safetensorshunyuan_video_t2
https://huggingface.co/Comfy-Org/HunyuanVideo_repackaged/blob/main/split_files/text_encoders/clip_l.safetensorsclip_l.safetensors
https://huggingface.co/Comfy-Org/HunyuanVideo_repackaged/blob/main/split_files/text_encoders/llava_llama3_fp8_scaled.safetensorsllava_llama3_fp8_scaled.safetensors
https://huggingface.co/Comfy-Org/HunyuanVideo_repackaged/blob/main/split_files/vae/hunyuan_video_vae_bf16.safetensorshunyuan_video_vae_bf16.safetensors
code:model
📂ComfyUI/
└── 📂models/
├── 📂diffusion_models/
│ └── hunyuan_video_t2v_720p_bf16.safetensors
├── 📂text_encoders/
│ ├── clip_l.safetensors
│ └── llava_llama3_fp8_scaled.safetensors
└── 📂vae/
└── hunyuan_video_vae_bf16.safetensors
text2video
workflow
https://gyazo.com/49d2d23fe7d75ad749aa216aa9b7820d
HunyuanVideo_text2video.json
🟪モデルの選択
Out of memoryになる場合はweight_dtypeをfp8に
🟨ノーマルVAE Decodeを使うには32GBのVRAMが必要なので、(5090に選ばれし者以外は)代わりにVAE Decode (Tiled)ノードを使用します
動画生成で使う場合、空間的なタイリング(Spatial Tiling cf. 🦊Ultimate SD upscale)だけでなく、時間軸方向にタイリングします(Temporal Tiling)
これによって同時に処理するフレーム数を削減できるため8GBのVRAMでも生成可能です
image2video
モデルの追加ダウンロード
https://huggingface.co/Comfy-Org/HunyuanVideo_repackaged/blob/main/split_files/diffusion_models/hunyuan_video_image_to_video_720p_bf16.safetensorshunyuan_video_image_to_video_720p_bf16.safetensors (通称v1)
https://huggingface.co/Comfy-Org/HunyuanVideo_repackaged/blob/main/split_files/diffusion_models/hunyuan_video_v2_replace_image_to_video_720p_bf16.safetensorshunyuan_video_v2_replace_image_to_video_720p_bf16.safetensors (通称v2)
https://huggingface.co/Comfy-Org/HunyuanVideo_repackaged/blob/main/split_files/clip_vision/llava_llama3_vision.safetensorsllava_llama3_vision.safetensors
code:model
📂ComfyUI/
└── 📂models/
├── 📂diffusion_models/
│ ├── hunyuan_video_image_to_video_720p_bf16.safetensors
│ └── hunyuan_video_v2_replace_image_to_video_720p_bf16.safetensors
└── 📂clip_vision/
└── llava_llama3_vision.safetensors
workflow
https://gyazo.com/477ee6c97baa06d5edf008ae5c560c1e
HunyuanVideo_image2video_v2.json
🟪v1はより創造性のある動画になる
🟪v2はv1の改良、というよりはunconditional branchを入力画像の埋め込みで置換したことによってより、入力画像に忠実になったモデル
https://gyazo.com/ed94655ea2194f39a4fa5c785190f266https://gyazo.com/301808480416cdf75eea528eb7373e58https://gyazo.com/44eb89b4c562e1d93fc544c995df4f05
input / v1 / v2
🟩Text Encode Hunyuan Video (ImageToVideo)ノードのimage_interleave(デフォルト4)は、最初の数フレーム入力画像のlatentを挿入することで安定感を増すもので、基本そのままでOKです
🟦これとは関係ないのだけれど、生成した動画の序盤のフレームの質が下がる傾向にあるので、公式のプログラムでは出力動画の最初の4フレームを捨てています
今回は必要なかったのでバイパス
🟩HunyuanImageToVideoノードのguidance_typeは🟪で選んだものと同じ方を選択(v1/v2)