FLUX.2 Klein 9B Schematic LoRA

https://gyazo.com/2748841aca4d3b2f66939a346d4a5c7b

CVタスクも指示ベース画像編集の一種と捉えてしまえば良いのでは？という非常にシンプルなアイデア

今回は6つのタスクでLoRAを作った

relative depth

surface normal

body pose

full pose

binary segmentation

vision bananaにはないオリジナル要素

1タスク1LoRA

本当は一つのLoRAでまとめて学習させたかったけど、内部でタスクが混ざってうまくいかなかったnomadoor.icon

性能が非常にイマイチnomadoor.icon

DepthやNormalは、ある意味絵柄変換に近いので比較的簡単

Pose推定はできることには出来るけど、ポーズ表現というものが、ポイントの数や指の数・ボーンの色なんかが非常に厳密に決まっているので正直あまり向いていない

セグメンテーションは、Flux.2のテキストエンコーダによるプロンプト理解力を使いこなすのを期待したけれど、全く上手くいっていない

単純に「〇〇を消してくれ」といったときは上手くいき、「〇〇をセグメンテーションしてくれ」といったときはそれと比べて明確に性能落ちるので、単純に学習が上手くいっていない(多分)