RaCig
[2506.12517] Retrieval Augmented Comic Image Generation
https://gyazo.com/0a4632a9f4a8ea52ed7a63796d988011
https://gyazo.com/c2f5cea1041db134138aa63f8cd0cb6e
https://gyazo.com/148ac453c1edf8b07584361f3e7b2900
Yunhao Shui, Xuekuan Wang, Feng Qiu, Yuqiu Huang, Jinzhu Li, Haoyu Zheng, Jinru Han, Zhuo Zeng, Pengpeng Zhang, Jiarui Han, Keqiang Sun
14 Jun 2025
画像生成でのキャラクターの一貫性を保つ技術
IP adapterやInstandIDは単一人物には有効だが、複数のキャラクターに対する一貫性に欠けた
複数人対応
FastCompaser資格情報をテキスト埋め込みに統合。複雑な処理
UniPortrait IP adapterににたアーキテクチャで複数ID対応
Mixture of Attentionアテンションレベルでの特徴ブレンド
InstantFamily ポーズ推定+マスクされたid特徴で実現
これらはどれもアクションやジェスチャーの表現力が限定的なのでビジュアル表現の制約がある
Fig. 1のようなキックとか出せないよねって話。確かにキックさせたいよね〜基素.icon