Comfyui image2prompt

対応VLM

tagger

プロンプト生成

https://gyazo.com/4bd1aec3116d07e94079a0bcf0ff5270

初回にモデルがダウンロードされる

なにもテキストを入れなかったときはqueryに入っているプロンプトが使われる

PROMPT

modelで読み込んだモデルでの推論が出力される

TAGS

wd-swinv2-tagger-v3で生成されたタグが出力される

FULL PROMPT

PROMPT + TAGS

基本的には単に文章を結合するだけのノード

風景や雰囲気の描写が得意なmoondreamやdeepseek-vl等のVLMとキャラの描写が得意なWD-tagger-v3の良い部分を組み合わせ、それをQwen 1.8B Stable Diffusion Promptに渡すことでプロンプトを作ってもらおうという考え

InternLM-XComposer2-VLは推論にVRAMが17GB必要

low_memoryをtrueにすればギリギリ12GBで動くもののPCが止まるnomadoor.icon