FLUX.2 Klein 9B Schematic LoRA
https://gyazo.com/2748841aca4d3b2f66939a346d4a5c7b
https://huggingface.co/nomadoor/flux-2-klein-9B-schematic-loranomadoor/flux-2-klein-9B-schematic-lora
https://huggingface.co/datasets/nomadoor/flux-2-klein-9B-schematic-datasetnomadoor/flux-2-klein-9B-schematic-dataset
https://comfyui.nomadoor.net/ja/notes/flux2-klein-schematic-lora/blog
inspired by Vision Banana
CVタスクも指示ベース画像編集の一種と捉えてしまえば良いのでは?という非常にシンプルなアイデア
今回は6つのタスクでLoRAを作った
relative depth
surface normal
body pose
full pose
binary segmentation
amodal segmentation
vision bananaにはないオリジナル要素
1タスク1LoRA
本当は一つのLoRAでまとめて学習させたかったけど、内部でタスクが混ざってうまくいかなかったnomadoor.icon
性能が非常にイマイチnomadoor.icon
DepthやNormalは、ある意味絵柄変換に近いので比較的簡単
Pose推定はできることには出来るけど、ポーズ表現というものが、ポイントの数や指の数・ボーンの色なんかが非常に厳密に決まっているので正直あまり向いていない
セグメンテーションは、Flux.2のテキストエンコーダによるプロンプト理解力を使いこなすのを期待したけれど、全く上手くいっていない
単純に「〇〇を消してくれ」といったときは上手くいき、「〇〇をセグメンテーションしてくれ」といったときはそれと比べて明確に性能落ちるので、単純に学習が上手くいっていない(多分)