DRA-Ctrl
https://gyazo.com/3333e1f2748b28e2b162ab2140e6de7c
https://dra-ctrl-2025.github.io/DRA-Ctrl/Project
https://github.com/Kunbyte-AI/DRA-CtrlKunbyte-AI/DRA-Ctrl
https://arxiv.org/abs/2505.23325Dimension-Reduction Attack! Video Generative Models are Experts on Controllable Image Synthesis
動画生成モデルを条件付き画像生成/Subject-Driven Image Generation/画像編集...として使う
動画生成モデルで画像生成をする最も簡単な方法は2フレームの動画として生成することだが、text2videoにしてもimage2videoにしてもプロンプト忠実度、参照画像との一貫性どちらかが失われる
https://gyazo.com/e6a0534c544e1651c88cd5ddcee0a3c4
Mixup-based Shot Transition
通常では数フレームの動画では大きな変化はない
そこで、生成する動画をクロスディゾルブ(フェードイン・フェードアウト)を用いたシーンチェンジのように扱うことで大きな変化を伴うタスクに対応できるようにする
Frame-Skip Position Embedding (FSPE)
スムーズなトランジション動画を作るには数十フレーム必要だが、画像生成タスクとして見た時、ほとんどが無駄であり推論・学習の両方で計算コストが無駄にかかる
そこで、RoPEの時間次元にスキップ間隔を設けることで、少ないフレーム数でも長い時間の動画を作っているように見せかける
Attention Masking Strategy
条件画像トークン/生成フレームトークン/ターゲット画像プロンプトトークン/条件画像プロンプトトークン
それぞれが混ざらないようにする
関連
Framepack 1フレーム推論
VACE