MLLMを使った条件分岐
https://gyazo.com/bedf72e26351214d3eb3a6a7691ff3c5
InternLM-XComposer2-VL-IF.json
画像に複数人いたら"1"をそれ以外なら"0"を出力してもらい、
ComfyUI-Logic
のIfにつなげた
複数人ならモノクロ加工、一人 or 0人ならブラー加工
ここでは
InternLM-XComposer2-VL
を使っているが重すぎる
かといってmoondreamやLLaVaベースのものは簡潔に答えてくれず、"This image..."と無駄に回答を長くしてくる
と思っていたのだけど、
Answer concisely.
をつけると簡潔に答えてくれるようになった
nomadoor.icon
llava-v1.6-mistral-7b
は悪くない
moondream1
はいまいち
ComfyUI VLM nodes
の、というより
llama-cpp-agent
の
Structured Output
を使うことで、出力形式を100%制御できる