Bernini - work4ai

Bernini

https://gyazo.com/f41122ca8c1e37d4c93501c48b764454

https://gyazo.com/5fd66c92b87239236c23bbc61cb64165

前半MLLM planner と後半 DiT render の２段構成

MLLM planner

入力動画、参照画像/動画、テキスト指示から、どのような動画を作れば良いかを考える

出力するのはtarget側のsemantic embeddings

DiT render

Wan2.2ベース

MLLM plannerが作ったsemantic embeddingsと、入力動画/参照画像のVAE latentを条件として受け取り動画を生成

思ったよりシンプル？nomadoor.icon