FramePack
従来の動画生成モデルの問題点
忘却
後半のフレームに進むに連れ、モデルが以前の内容を忘れていってしまう
エンコードするフレームを増やせばいいが二次元的に計算量が増える
ドリフト
初期のエラーが蓄積され後半の動画の品質が下がる
FramePack
https://gyazo.com/0ea79861a2de295f4772fbf7b072d540
a : 時間が進むに連れ1/2,1/4と幾何級数的に圧縮率を高くする
b : 同じ圧縮率のパッチが3回繰り返される
c : 時間方向にも圧縮する
例えば、最初のテンソルはF0のみだが、次のテンソルはF1とF2を含む
DiTと相性が良い
d,e : 最初と最後のフレームを同等に扱う
https://gyazo.com/8a7dd8ba2ad737d464fe3a16424a306d
最初と最後のフレームを作ってから、その間を埋めるように動画を生成していく
c : 後ろのフレームから作っていく
最初に与えられた高品質なフレームに近似するように作っていくためimage2videoに有効
HunyuanVideo、WANなど既存のモデルに組み込んで使える
現時点のモデルはHunyuanVideoベース?(モデルカードへのリンクが見つけられないので詳細不明だがアーキテクチャは少なくともHunyuanVideoのものを使用している模様)
現在のモデルは13BらしいがVRAM6GB(誤字ではない)で動画を生成可能
また、時間はかかるが分単位の動画も作れる等、従来モデルにあった5秒の壁がない
改造
また革命起こしたんですか?nomadoor.icon
現時点(2025/04/18 AM1:00)では(品質面で)
キャラクターの一貫性では商用モデルレベル
キャラクターとその動きに関してはかなり強いが、エフェクトなどキャラクター以外の要素はあまり動かさない傾向
動画モデルとしては速い(HunyuanVideoはともかくWanはかなり遅いというのもあるが⋯)
VRAM消費が異様に少ない(どうやらメモリオフロードを標準で組み込んでいる模様)
カメラは動かない?
と言った感じのようだ。morisoba65536.icon
カメラワーク動かないならいっそグリーンバックで動画作って合成するいにしえの合成術を使うか…?morisoba65536.icon