Bernini
https://gyazo.com/f41122ca8c1e37d4c93501c48b764454
https://gyazo.com/5fd66c92b87239236c23bbc61cb64165
前半MLLM planner と後半 DiT render の2段構成
MLLM planner
入力動画、参照画像/動画、テキスト指示から、どのような動画を作れば良いかを考える
DiT render
Wan2.2ベース
MLLM plannerが作ったsemantic embeddingsと、入力動画/参照画像のVAE latentを条件として受け取り動画を生成
思ったよりシンプル?nomadoor.icon
関連