CSGO
https://gyazo.com/f0a11ddb9415ee353544c92e87aa4503
https://csgo-gen.github.io/Project
https://github.com/instantX-research/CSGOinstantX-research/CSGO
https://arxiv.org/abs/2408.16766CSGO: Content-Style Composition in Text-to-Image Generation
任意のコンテンツ画像Cとスタイル画像Sを与えられた場合、CSGOは一方の画像のコンテンツともう一方の画像のスタイルを組み合わせることで、もっともらしいターゲット画像を生成することを目指します。
https://gyazo.com/eea048e231dae1839632d8109263f28f
(1) コンテンツ情報を抽出するためのコンテンツ制御で、これはControlnetとdecoupled cross-attention moduleを介してベースモデルに注入されます
(2) スタイル情報を抽出するためのスタイル制御で、これはそれぞれControlnetとベースモデルにdecoupled cross-attention moduleを使用して注入されます。
RB-Modulationみたいなスタイル転送というよりは、古のneural-style-tfとかimage prompt的にControlNetを使うみたいな感じだなnomadoor.icon
#InstantX