🦊image2prompt
image2promptは、画像からそれを生成するためのテキストプロンプトをAIに予想してもらうものです
そのプロンプトを入れたところで全く同じ画像ができることはまず無いですが、参考にしたり自動化にしたりと使う場面は少なくありません
WD14-taggerの後継であるWD-tagger-v3が出たのでそちらを紹介します
🪢カスタムノード
https://gyazo.com/a97fe3f3a2e72a2396df6ebc8c005b72
WD14-taggerはDanbooruタグで学習されているため、アニメ絵や版権にめっぽう強い一方、写真や風景の描写はめちゃめちゃ弱いです WD-tagger-v3は大幅に知識が増えましたが、長所と短所はWD14-taggerからあまり変わっていません
WD14-taggerの強さを持ちつつ、汎用性を持たせた視覚モデルです
🪢カスタムノード
https://gyazo.com/d36ff7633d15e402e1606d0219e35dac
とてもおすすめnomadoor.icon
👁️VLM
テキストだけでなく画像を入力として使えるVLMにも、ローカルで動く軽量なものがいくつか登場し、"この画像を説明して!"というプロンプトを入れればimage2promptとして使うことができます 🪢カスタムノード
https://gyazo.com/98e9db7b30f798307dc41fb9885ccb3b
モバイルデバイスで使うことを想定した超軽量なVLMです
https://gyazo.com/1d86d574200fa38c0199ef204c1dc688
性能だけ見ればもっと良いものもありますが、画像生成と組み合わせることを考えたときの処理の軽さと性能のバランスはピカイチです
🤝JoyTagとVLMを組み合わせる
🦾プロンプトとして使ってみる
https://gyazo.com/29bcc18a45cc6f355c58e1847a30498f
🟥positive側のCLIPTextEncodeノードを右クリック → Convert text to input
🟩WD14Tagger|pysssssの出力をつなぎます
各種MLLM / VLM
参考に各社のMLLMをComfyUIで使うカスタムノードを置いておきます
GPT-4V
Gemini
Comfyui image2prompt / ComfyUI VLM nodes
Comfyui image2prompt
ComfyUI VLM nodes
Comfyui image2prompt