🦊FramePack

🏠 | 🦊雑に学ぶComfyUI

👈 | 🦊HunyuanVideo

👉 | 🦊Framepack 1フレーム推論

FramePack

FramePackはHunyuanVideoをlllyasviel大先生が魔改造したものです

HunyuanVideoにかかわらず現在の動画生成AIは記憶力が弱いため数十秒の動画を作るとだんだん世界が崩壊していきます

FramePackではこの記憶を特殊な方法で圧縮することで計算量をどんな長さであろうと一定にしています

また、単純に前のフレームから順に生成していくとエラーが蓄積されていき、これまた世界崩壊に繋がるため、FramePackでは最後から作り始めたり、最初と最後から真ん中へ向けて作ったりと工夫がされています

デフォルトとF1

デフォルトは双方向、つまり最初と最後のフレームを作ってから間を埋めるように作っていきます

一貫性が強力に保持されるため、長尺動画やgenerative interpolationに向いています

ただし生成される動画がヌメっとします

F1(forward-v1)は一般的なモデル同様、前のフレームから後ろに向かって順に生成していきます

より自然でダイナミックな動きになりますが、長尺(5s以上)になるとだんだん崩壊していきます

推奨設定値

fps : 30

解像度 : 32の倍数(?)

🪢カスタムノード

https://github.com/xhiroga/ComfyUI-FramePackWrapper_PlusOne?tab=readme-ov-filexhiroga/ComfyUI-FramePackWrapper_PlusOne

ベースhttps://github.com/ShmuelRonen/ComfyUI-FramePackWrapper_Plus/tree/main?tab=readme-ov-fileShmuelRonen/ComfyUI-FramePackWrapper_Plus のベースは Kijai版

モデルのダウンロード

https://huggingface.co/Comfy-Org/sigclip_vision_384/blob/main/sigclip_vision_patch14_384.safetensorssigclip_vision_patch14_384.safetensors

https://huggingface.co/Kijai/HunyuanVideo_comfy/blob/main/FramePackI2V_HY_fp8_e4m3fn.safetensorsFramePackI2V_HY_fp8_e4m3fn.safetensors

https://huggingface.co/Comfy-Org/HunyuanVideo_repackaged/blob/main/split_files/text_encoders/clip_l.safetensorsclip_l.safetensors

https://huggingface.co/Comfy-Org/HunyuanVideo_repackaged/blob/main/split_files/text_encoders/llava_llama3_fp8_scaled.safetensorsllava_llama3_fp8_scaled.safetensors

https://huggingface.co/Comfy-Org/HunyuanVideo_repackaged/blob/main/split_files/vae/hunyuan_video_vae_bf16.safetensorshunyuan_video_vae_bf16.safetensors

code:model

📂ComfyUI/

└── 📂models/

├── 📂clip_vision/

│ └── sigclip_vision_patch14_384.safetensors

├── 📂diffusion_models/

│ └── hunyuan_video_t2v_720p_bf16.safetensors

├── 📂text_encoders/

│ ├── clip_l.safetensors

│ └── llava_llama3_fp8_scaled.safetensors

└── 📂vae/

└── hunyuan_video_vae_bf16.safetensors

text2video (🟩F1を使用)

https://gyazo.com/67a0f7e8e30693c061480b8d42daa143

FramePack_F1_text2video.json

image2video (🟩F1を使用)

https://gyazo.com/10c29e78cd25e5899758735e1f43e548

FramePack_F1_image2video.json

画像の解像度は32の倍数である必要があるため(多分)、Scale Image to Total Pixelsノードでリサイズ後、🔧 Image Resizeノードで8の倍数になるように修正

🦊prompt travelのように指定した秒数でのプロンプトを切り替えられる

[0s: A woman winking] / Xsから次のプロンプトが出るまでこのプロンプトを継続

[2s-4s: A woman laghing] / XsからYsまでこのプロンプトを継続

https://gyazo.com/e5ec40a170103ac605b6d8c6b200e340

wink → laugh

FLF2V_generative interpolation (🟩デフォルトを使用)

https://gyazo.com/59fa9ed610e0d05f9ca182eafbe50578

FramePack_FLF2V.json

https://gyazo.com/96968a3014827e5e4ab2575199a25ec0https://gyazo.com/9b49370466dbf6adbfdaed130839e469https://gyazo.com/ef9b596e8c6c635838641d3966d10955