FramePack

https://github.com/lllyasviel/FramePacklllyasviel/FramePack

https://lllyasviel.github.io/frame_pack_gitpage/プロジェクトページ

https://arxiv.org/abs/2504.12626Packing Input Frame Context in Next-Frame Prediction Models for Video Generation

従来の動画生成モデルの問題点

忘却

後半のフレームに進むに連れ、モデルが以前の内容を忘れていってしまう

エンコードするフレームを増やせばいいが二次元的に計算量が増える

ドリフト

初期のエラーが蓄積され後半の動画の品質が下がる

FramePack

生成する動画の長さに関わらずコンテキスト長が固定の上限になるようにパッチを圧縮する

https://gyazo.com/0ea79861a2de295f4772fbf7b072d540

a : 時間が進むに連れ1/2,1/4と幾何級数的に圧縮率を高くする

b : 同じ圧縮率のパッチが3回繰り返される

c : 時間方向にも圧縮する

例えば、最初のテンソルはF0のみだが、次のテンソルはF1とF2を含む

DiTと相性が良い

d,e : 最初と最後のフレームを同等に扱う

Anti-drifting Sampling

https://gyazo.com/8a7dd8ba2ad737d464fe3a16424a306d

最初と最後のフレームを作ってから、その間を埋めるように動画を生成していく

これ出来るってことはgenerative interpolationもできるよね？ということでみんな試している

→ https://x.com/nirvash/status/1913149548870156592https://x.com/nirvash/status/1913234244698357857実際に出来そう、StartEndや中間フレーム指定が有志により実験中

https://github.com/lllyasviel/FramePack/pull/167Add Start and End Frame control，works great! #167

c : 後ろのフレームから作っていく

最初に与えられた高品質なフレームに近似するように作っていくためimage2videoに有効

https://github.com/lllyasviel/FramePack/discussions/459?utm_source=chatgpt.comFramePack‑F1 (forward‑only version 1)

過去フレームのみを条件に未来フレームを予測する

HunyuanVideo、WANなど既存のモデルに組み込んで使える

現時点のモデルはHunyuanVideoベース？(モデルカードへのリンクが見つけられないので詳細不明だがアーキテクチャは少なくともHunyuanVideoのものを使用している模様)

現在のモデルは13BらしいがVRAM6GB(誤字ではない)で動画を生成可能

また、時間はかかるが分単位の動画も作れる等、従来モデルにあった5秒の壁がない

改造

https://github.com/git-ai-code/FramePack-eichiFramePack-eichi

また革命起こしたんですか？nomadoor.icon

現時点(2025/04/18 AM1:00)では(品質面で)

キャラクターの一貫性では商用モデルレベル

キャラクターとその動きに関してはかなり強いが、エフェクトなどキャラクター以外の要素はあまり動かさない傾向

動画モデルとしては速い(HunyuanVideoはともかくWanはかなり遅いというのもあるが⋯)

VRAM消費が異様に少ない(どうやらメモリオフロードを標準で組み込んでいる模様)

カメラは動かない？

https://x.com/zasuko_michiksa/status/1913624272784028011一応ある程度はカメラも動くようだ(少なくとも被写体とセットで歩くようなカメラワークは確認)

https://x.com/hadairoBANBAN/status/1913610966199402745背景のみ動かす、みたいな事は可能

と言った感じのようだ。morisoba65536.icon

カメラワーク動かないならいっそグリーンバックで動画作って合成するいにしえの合成術を使うか…？morisoba65536.icon

https://x.com/redpolo999/status/1913522184645153093だいぶ意外だが服を変えれるようだ⋯

ComfyUI実装

https://github.com/kijai/ComfyUI-FramePackWrapperkijai/ComfyUI-FramePackWrapper

https://github.com/ShmuelRonen/ComfyUI-FramePackWrapper_PlusShmuelRonen/ComfyUI-FramePackWrapper_Plus

一貫性の高さを利用し、画像生成に使う1フレーム推論という応用がある

仕組み解説

FramePackの推論と1フレーム推論、kisekaeichi、1f-mcを何となく理解する｜Kohya S.

1フレーム推論用LoRAまとめ

【FramePack】話題の動画生成AIで画像生成的なことをやってみた【eichi】｜カズヤ弟＠ゲーム実況＆生成AI