🦊HunyuanVideo

🏠 | 🦊雑に学ぶComfyUI

👈 | 🦊LTX-Video

👉 | 🦊FramePack

参考

https://docs.comfy.org/tutorials/video/hunyuan-video#shared-models-for-all-workflows公式Doc

https://comfyanonymous.github.io/ComfyUI_examples/hunyuan_video/公式workflow

推奨設定値

解像度

720P (1280×720)

最大フレーム数

129f (5秒 × 24fps)

(4n + 1)f 推奨

モデルのダウンロード

https://huggingface.co/Comfy-Org/HunyuanVideo_repackaged/blob/main/split_files/diffusion_models/hunyuan_video_t2v_720p_bf16.safetensorshunyuan_video_t2

https://huggingface.co/Comfy-Org/HunyuanVideo_repackaged/blob/main/split_files/text_encoders/clip_l.safetensorsclip_l.safetensors

https://huggingface.co/Comfy-Org/HunyuanVideo_repackaged/blob/main/split_files/text_encoders/llava_llama3_fp8_scaled.safetensorsllava_llama3_fp8_scaled.safetensors

https://huggingface.co/Comfy-Org/HunyuanVideo_repackaged/blob/main/split_files/vae/hunyuan_video_vae_bf16.safetensorshunyuan_video_vae_bf16.safetensors

code:model

📂ComfyUI/

└── 📂models/

├── 📂diffusion_models/

│ └── hunyuan_video_t2v_720p_bf16.safetensors

├── 📂text_encoders/

│ ├── clip_l.safetensors

│ └── llava_llama3_fp8_scaled.safetensors

└── 📂vae/

└── hunyuan_video_vae_bf16.safetensors

text2video

workflow

https://gyazo.com/49d2d23fe7d75ad749aa216aa9b7820d

HunyuanVideo_text2video.json

🟪モデルの選択

Out of memoryになる場合はweight_dtypeをfp8に

🟨ノーマルVAE Decodeを使うには32GBのVRAMが必要なので、(5090に選ばれし者以外は)代わりにVAE Decode (Tiled)ノードを使用します

動画生成で使う場合、空間的なタイリング(Spatial Tiling cf. 🦊Ultimate SD upscale)だけでなく、時間軸方向にタイリングします(Temporal Tiling)

これによって同時に処理するフレーム数を削減できるため8GBのVRAMでも生成可能です

image2video

モデルの追加ダウンロード

https://huggingface.co/Comfy-Org/HunyuanVideo_repackaged/blob/main/split_files/diffusion_models/hunyuan_video_image_to_video_720p_bf16.safetensorshunyuan_video_image_to_video_720p_bf16.safetensors (通称v1)

https://huggingface.co/Comfy-Org/HunyuanVideo_repackaged/blob/main/split_files/diffusion_models/hunyuan_video_v2_replace_image_to_video_720p_bf16.safetensorshunyuan_video_v2_replace_image_to_video_720p_bf16.safetensors (通称v2)

https://huggingface.co/Comfy-Org/HunyuanVideo_repackaged/blob/main/split_files/clip_vision/llava_llama3_vision.safetensorsllava_llama3_vision.safetensors

code:model

📂ComfyUI/

└── 📂models/

├── 📂diffusion_models/

│ ├── hunyuan_video_image_to_video_720p_bf16.safetensors

│ └── hunyuan_video_v2_replace_image_to_video_720p_bf16.safetensors

└── 📂clip_vision/

└── llava_llama3_vision.safetensors

workflow

https://gyazo.com/477ee6c97baa06d5edf008ae5c560c1e

HunyuanVideo_image2video_v2.json

🟪v1はより創造性のある動画になる

🟪v2はv1の改良、というよりはunconditional branchを入力画像の埋め込みで置換したことによってより、入力画像に忠実になったモデル

https://gyazo.com/ed94655ea2194f39a4fa5c785190f266https://gyazo.com/301808480416cdf75eea528eb7373e58https://gyazo.com/44eb89b4c562e1d93fc544c995df4f05

input / v1 / v2

🟩Text Encode Hunyuan Video (ImageToVideo)ノードのimage_interleave(デフォルト4)は、最初の数フレーム入力画像のlatentを挿入することで安定感を増すもので、基本そのままでOKです

🟦これとは関係ないのだけれど、生成した動画の序盤のフレームの質が下がる傾向にあるので、公式のプログラムでは出力動画の最初の4フレームを捨てています

今回は必要なかったのでバイパス

🟩HunyuanImageToVideoノードのguidance_typeは🟪で選んだものと同じ方を選択(v1/v2)