Bernini
https://gyazo.com/f41122ca8c1e37d4c93501c48b764454
https://bernini-ai.github.io/Project
https://github.com/bytedance/Berninibytedance/Bernini
https://arxiv.org/abs/2605.22344Bernini: Latent Semantic Planning for Video Diffusion
https://huggingface.co/ByteDance/Bernini-RByteDance/Bernini-R
Wan2.2ベースの指示ベース動画編集モデル
reference2video/reference-video2video
https://gyazo.com/5fd66c92b87239236c23bbc61cb64165
前半MLLM planner と後半 DiT render の2段構成
MLLM planner
入力動画、参照画像/動画、テキスト指示から、どのような動画を作れば良いかを考える
出力するのはtarget側のsemantic embeddings
DiT render
Wan2.2ベース
MLLM plannerが作ったsemantic embeddingsと、入力動画/参照画像のVAE latentを条件として受け取り動画を生成
思ったよりシンプル?nomadoor.icon
関連
VACE