Endフレームのみ指定して過去動画を生成する(LF2V)
このタスクこう呼ぶらしい
#LF2V
まだ世間的にメジャーな決まった呼び名がなく、タイトルがちと悩ましいので、wiki内検索にかかりやすくするため別の呼び名なども記載(私も毎回迷う)morisoba65536.icon
終端フレーム条件の動画生成(End-frame Conditioned Video Generation)
終端フレームのみでの動画生成(End Frame Only Generation)
終端フレーム条件付きインビトウィーニング(Generative Inbetweening from Last Frame)
要するになにするの?
メジャーな画像から動画生成image2videoは「動画の最初のフレームの画像」を渡して「そこからどうなるか?」という未来予想をプロンプトをベースにさせるタスクです。
ここでは「動画の最後のフレームの画像」を渡して、「ここに至るまでどういう状態から何があったか?」と言う過去を推論させるものです。
例えば「爆発してる採石場の画像」を渡して、プロンプトに「倒された怪人が爆発四散した」とすればなんかの怪人的なものが倒れるシーンが生成されることが期待できますし、「2台の車が追突し爆発した」とすれば車が走ってきて激突するようなシーンが生成させる事が期待できます。(この辺はまだ実際できるかまで未確認)
もう少し実用的な?(成功例のある)タスクだと、「正面を向いてる人物の画像」を用意して「{人物の特徴などを入力}彼(彼女)は後ろ向きに立っており、こちらに向かって振り向いた」とプロンプト入力すると立ち絵から振り返りモーションを作れたりします。
プロンプトはtext2videoを書くくらいのつもりでしっかり書くほうが成功率は高い印象です。(特に渡す終了画像で隠れて見えない要素は特徴を明示的に書くほうが良いです)
今のところ成功例の確認できたモデルは
🦊Wan2.2-12V-A14B
Wan2.2-Fun-A14B-InP
🦊Wan2.1_VACE
のみです。
他のWan2.1-FLF2V等では開始フレームの色がおかしくなるなどうまく動作しません…
やり方の概要だけざっくり書くと「Start Endフレーム指定のうちStartフレームだけ削除したWorkflowを作る」事で実現可能です。
Wan2.2-i2v、Wan2.2-Fun-InPはほんとにこれだけです。
VACEの場合、「終了フレームだけマスクしていない生成したい長さの画像リスト」を何らかの手段で作る必要があります(方法は複数あるが上記2つよりは手間がかかります)
詳細切り出すまで付言のあるページへのリンク暫定おき
🦊Wan2.2
Wan2.2-Fun
🦊Wan2.1_VACE
表記ゆれ
EndFrame/End Frame
終了フレーム/終了Frame
LastFrame/Lust Frame/Lustフレーム/ラストフレーム