🦊image2prompt

👈️ |

👉️ |

image2promptは、画像からそれを生成するためのテキストプロンプトをAIに予想してもらうものです

そのプロンプトを入れたところで全く同じ画像ができることはまず無いですが、参考にしたり自動化にしたりと使う場面は少なくありません

CLIP Interrogatorから始まり、WD14-tagger、最近はGPT-4VのようなMLLMにキャプションを書かせる方法もあります

WD14-taggerの後継であるWD-tagger-v3が出たのでそちらを紹介します

🪢カスタムノード

https://gyazo.com/a97fe3f3a2e72a2396df6ebc8c005b72

WD14-taggerはDanbooruタグで学習されているため、アニメ絵や版権にめっぽう強い一方、写真や風景の描写はめちゃめちゃ弱いです

WD-tagger-v3は大幅に知識が増えましたが、長所と短所はWD14-taggerからあまり変わっていません

VLM

上に挙げたものは"画像"と"タグ"を一対一対応させたもので、いわば「タグ付け職人」です

対して以下のVLM/MLLMのベースはLLM、つまりChatGPTのようにテキストで対話したり調べ事をしてもらうものです

LLMに目をつけて、画像や動画もプロンプトとして使えるようにしたのがVLM/MLLMです

LLMがベースなので、例えば"画像の中に人は何人いる?"という質問もできたりしますが、ここでは"詳細なキャプションをつけて"と聞くことで、キャプション生成器として使ってみましょう

Florence2

🪢カスタムノード

JoyCaption

🪢カスタムノード

https://gyazo.com/973675161ae8af0e9cea9ae84693cfb9

🚨日々たくさんのVLMが出ており、ここで紹介されているものがベストということは全くありません

🤝JoyTagとVLMを組み合わせる

🦾プロンプトとして使ってみる

https://gyazo.com/29bcc18a45cc6f355c58e1847a30498f

🟩WD14Tagger|pysssssの出力をつなぎます

🟥出力されたキャプションをCLIPTextEncodeノードにつなぎます

クローズAI(API)

各社のMLLMをComfyUIで使うカスタムノード