Comfyui image2prompt
https://github.com/zhongpei/Comfyui_image2promptzhongpei/Comfyui_image2prompt
対応VLM
moondream1
moondream2
InternLM-XComposer2-VL
uform-gen2-qwen-500m
deepseek-vl-7b-chat
deepseek-vl-1.3b-chat
tagger
wd-swinv2-tagger-v3
プロンプト生成
Qwen 1.8B Stable Diffusion Prompt
https://gyazo.com/4bd1aec3116d07e94079a0bcf0ff5270
image2prompt.json
初回にモデルがダウンロードされる
なにもテキストを入れなかったときはqueryに入っているプロンプトが使われる
Image2TextWithTagsノード
PROMPT
modelで読み込んだモデルでの推論が出力される
TAGS
wd-swinv2-tagger-v3で生成されたタグが出力される
FULL PROMPT
PROMPT + TAGS
Text2GPTPromptノード
基本的には単に文章を結合するだけのノード
風景や雰囲気の描写が得意なmoondreamやdeepseek-vl等のVLMとキャラの描写が得意なWD-tagger-v3の良い部分を組み合わせ、それをQwen 1.8B Stable Diffusion Promptに渡すことでプロンプトを作ってもらおうという考え
cf. JoyTagで出力したタグをMLLMで編集する
InternLM-XComposer2-VLは推論にVRAMが17GB必要
low_memoryをtrueにすればギリギリ12GBで動くもののPCが止まるnomadoor.icon
ComfyUIカスタムノード