IP-Adapter

https://gyazo.com/1c643d7d18570f0d027c86eff728703d

unCLIPやPrompt-Free Diffusionのように画像をプロンプトとして画像生成するためのアプローチ

https://gyazo.com/b99fcb524ad45dd5ad175d5c45aa6a35

2つの要素で構成される

reference画像の画像特徴量を抽出するための画像エンコーダ(CLIP)

それを拡散モデルに埋め込むためのDecoupled Cross-Attentionモジュール

テキスト特徴量と画像特徴量を完全に分離している

ControlNetと同じように同じベースモデルを使っているモデルに対しては同じIP-Adapterを使える

https://gyazo.com/ab5a60c962a41200eed1ba3d39bf3222

ControlNetやT2I-Adapter等と完全な互換性がある

https://gyazo.com/5ea29c71211d8b185a11338690c98a24

細かい機能を持つ IP-Adapter

https://gyazo.com/efe0c0d37ce1ae4b3b6033ce18d3ce1c

顔に特化したip-adapter

ip-adapter-plus-faceの改良版

画像よりもプロンプトに忠実に

https://gyazo.com/7cb2b3f6ac3b515eab853b2f921bf49e

CLIP画像埋め込みに代えて顔認識モデルからの顔ID埋め込みを用い、さらにLoRAを用いてIDの一貫性を向上させている。

InsightFaceを使い、顔IDの埋め込みを抽出する

顔の構造をCLIPが担当、ID?をInsightFaceが担当するようにした

https://gyazo.com/ac27e9bcea3c5ce32d68d1041fb03e0d

https://gyazo.com/5bc7ce091efb83c126eae6d2f629a4c7

これは流行る(確信)nomadoor.icon

コードとモデルの配布が待ち遠しいwogikaze.icon

めちゃめちゃすぐ来たnomadoor.icon