DiffSensei
https://youtu.be/TLJ0MYZmoXc
https://jianzongwu.github.io/projects/diffsensei/Project
https://github.com/jianzongwu/DiffSenseijianzongwu/DiffSensei
https://arxiv.org/abs/2412.07589DiffSensei: Bridging Multi-Modal LLMs and Diffusion Models for Customized Manga Generation
既存のstory visualizationは一貫したキャラクター生成や物語に合わせたレイアウトを変更することができない
既存のSubject-Driven Image Generationはコピペ効果を生み出す傾向がある
キャラクターの特徴だけでなく参照画像上の向き・ポーズ等まで受け継いでしまう
Customized Manga Generation
マンガ生成のための新しいタスク
MangaZero
データセット
cf. MangaDex
DiffSensei
https://gyazo.com/b564cc2087174b4b02c8f5a1981d7b90
キャラクター特徴量抽出
CLIP & マンガ専用であるMagi
Masked cross-attention injection
chatgpt.icon
マンガパネル内の各キャラクターが割り当てられた領域(バウンディングボックス)内でのみ特徴を参照できるようにすることで、効率的かつ正確なレイアウト制御を実現します。
e.g.
https://gyazo.com/cc9b556f7da4ac79dbe5f92507600e1a