DiffSensei
https://arxiv.org/abs/2412.07589
Jianzong Wu, Chao Tang, Jingbo Wang, Yanhong Zeng, Xiangtai Li, Yunhai Tong
2024
https://jianzongwu.github.io/projects/diffsensei/
https://www.youtube.com/watch?v=TLJ0MYZmoXc&embeds_referring_euri=https%3A%2F%2Fjianzongwu.github.io%2F&source_ve_path=Mjg2NjQsMjM4NTE
https://gyazo.com/3a5ff154ea474b29deacf07149ea3c04
レイアウトと演出を指定できる
概要
今回の論文は「カスタマイズ漫画生成」という新タスクを提案し,拡散モデルにマルチモーダルLLM(MLLM)を組み合わせたフレームワーク DiffSensei を開発した
MangaZero(43 264ページ,427 147パネル)という大規模データセットを新たに構築し,公開予定である
実験では既存手法より高い画像品質・キャラクター一貫性・レイアウト適合度を達成し,未学習キャラクターにも一般化した
先行研究と比べてどこがすごい?
従来のストーリービジュアライゼーションはキャラクターを柔軟に制御できず「貼り付け感」が出やすかったが,本手法は表情・ポーズをテキストに合わせて動的に変化できる
大規模かつキャラクタID付きの漫画データセットを世界で初めて提供し,多キャラクター・多状態の学習を可能にした
マスク付きクロスアテンションでレイアウトを精密制御しながら計算コストを抑えている
技術や手法のキモはどこ?
キャラクター画像をトークン化し,領域マスク付きクロスアテンションでパネル内の位置を制御
MLLM を「キャラクター特徴アダプタ」として微調整し,テキストに合わせて特徴を編集(LoRA+Resampler)
セリフバルーン位置は学習可能なダイアログ埋め込みをノイズ潜在に加算して制御
どうやって有効だと検証した?
MangaZero で学習し,AR-LDM,StoryGen,SEED-Story,StoryDiffusion,MS-Diffusion との比較を実施
自動評価(FID, CLIP, DINO-I/C, F1)で全指標を上回り,例:DINO-C 0.651,F1 0.727
人手評価でもテキスト整合性,キャラクター一貫性,画像品質で最高評価を獲得した
アブレーションで MLLM やマスク機構を除去すると性能が顕著に低下し,設計の妥当性を確認
議論はある?
入力キャラ画像が不鮮明・類似キャラ多数の場合に同一化(融合)する失敗例が報告されている
キャラなし生成ではスタイル制御が難しく,今後は多様な漫画様式への適応が課題
次に読むべき論文は?
画像生成の多主体カスタマイズを扱う MS-Diffusion(2024)
レイアウト制御付き長距離生成の StoryDiffusion(2024)
オブジェクトレベルカスタマイズ AnyDoor(CVPR 2024)
テキスト指示による画像編集 CAFE(CVPR 2024)