MLLMを使った条件分岐
https://gyazo.com/bedf72e26351214d3eb3a6a7691ff3c5
InternLM-XComposer2-VL-IF.json
画像に複数人いたら"1"をそれ以外なら"0"を出力してもらい、ComfyUI-LogicのIfにつなげた
複数人ならモノクロ加工、一人 or 0人ならブラー加工
ここではInternLM-XComposer2-VLを使っているが重すぎる
かといってmoondreamやLLaVaベースのものは簡潔に答えてくれず、"This image..."と無駄に回答を長くしてくる
と思っていたのだけど、Answer concisely.をつけると簡潔に答えてくれるようになったnomadoor.icon
llava-v1.6-mistral-7bは悪くない
moondream1はいまいち
ComfyUI VLM nodesの、というよりllama-cpp-agentのStructured Outputを使うことで、出力形式を100%制御できる