🦊IP-Adapter
例えば自分の絵を見ながら、これと同じような絵をAIに描いてほしいなあと思ったとき、これまではテキストだけで指示するしかありませんでした
しかし、絵を完璧に文字で説明することなどできるはずがありません
そこで、AIに直接絵を見てもらい、テキストを介さずにそこに描かれているオブジェクト・絵柄等を理解し描いてもらおうというのがimage promptです
ComfyUI IPAdapter plusのアップデートに伴い、古いworkflowは多分動きません
修正したい…nomadoor.icon
🦊ComfyUIでやってみる
🪢カスタムノード
モデルのダウンロード
ComfyUI\modelsにipadapterフォルダを作り、その中に置きます
CLIP Vitモデルのダウンロード
ComfyUI\models\clip_visionに置いてください
名前がわかりにくいのでOpenCLIP-ViT-H-14へリネームしてください
https://gyazo.com/edb3903ff466e89357051abf4671bf02
noiseですが、特にこだわりがなければ0.01にしておくと良い結果になることが多いです
🟦IP-Adapterの目となるCLIP-ViT-Hですが、224 x 224の範囲しか見れません
とはいってもノードが勝手に画像を縮小&クロップするので特別な処理は基本いらないです
ただし、例えば縦長の人の写真を使ったとき、勝手に真ん中を基準に正方形に切り取って処理するので、顔や足がちょん切れます
Tileの考え方で全体をマッピングすることで、CLIPの正方形の制限から解放される https://gyazo.com/77dc82a27c0573b3c478cfa2d3a40555
🎀他のIP-Adapterモデル
この絵を参考に描いてくれ!といっても、絵というのはいろんな要素があり、どの要素のことをいっているのか?どこまで参考にしていいのか?というのは案外曖昧です
例えば絵柄、キャラ、オブジェクト、構図 etc.
上で使ったip-adapter_sd15は、参照画像を全体的にふわっと参考にすることが得意ですが、他にもそれぞれの要素に特化したモデルがいくつか作られているので紹介します
オブジェクト・構図を強く転送します
https://gyazo.com/5877bbdaef17de6e3dfe7ac83eae3021https://gyazo.com/64fdcae074a2a01943d7f5fff3aaa418https://gyazo.com/49d7d44574dd81256c0457c1d07a0733
参照画像 / 無印 / plus
無印に比べるとimage2imageに思えるほど構図が参照画像に近くなっています(右)
テキストプロンプトのほうを重視します
若干スタイル転送寄り
顔というより頭部を転送します
https://gyazo.com/9c99f339a6a51edf80ab236a67e3c217https://gyazo.com/4e67435add9b34f3463ad411de4b0404
参照画像 / plus-face
自由度は少なく、weight 0.8でプロンプトにwhite short hairと入れていますが無視されます
plus-faceよりも柔軟に顔を転送します
https://gyazo.com/afe7232d9dd3cc54f5d8a2f1d956e15f
このモデルはv2なので、faceid_v2をtrueに
設定はplus-faceのときと同じですが、こちらの方がかなり柔軟なのが分かります
こちらをベースにplus-faceを低いweightで併用するといい感じになるかもしれません
それぞれのSDXL版
🎞️複数枚の入力
https://gyazo.com/92a35187d0be97c692413e472555eab0
🐣派生
IP-Adapterの特に顔の特徴を転送する部分にフォーカスした派生技術がいくつか存在します