ControlNet
https://gyazo.com/efea3228e0c1145c888b261f91f6771a
neural networkのブロックの重みにトレーニング用のコピーを作る
元のモデルはロックして壊れないようにする
つまりどういうことだってばよnomadoor.icon
基盤モデル(SD)と事前学習モデルを組み合わせてDepth2imgモデルみたいなものを作るにはA100みたいな超強力なGPUが必要だった
RTX3090tiみたいな個人が持つGPUでもできるようになったよ(?)
e.g.
https://gyazo.com/37f8c0441ad71b26daae49c50d9465de
https://gyazo.com/374d9112c26cc1098d9e7e11b5ca49fa
https://gyazo.com/242c04ad5d06fc3616587c70eb77eb7b
https://github.com/lllyasviel/ControlNet/raw/main/github_page/p3.png
https://github.com/lllyasviel/ControlNet/raw/main/github_page/p5.png
User Scribbles
https://github.com/lllyasviel/ControlNet/raw/main/github_page/p7.png
Fake Scribbles
https://github.com/lllyasviel/ControlNet/raw/main/github_page/p9.png
https://github.com/lllyasviel/ControlNet/raw/main/github_page/p13.png
https://github.com/lllyasviel/ControlNet/raw/main/github_page/p17.png
Anime line Drawing
https://github.com/lllyasviel/ControlNet/raw/main/github_page/p21.png
これはまだ使えない基素.icon
このあたりさらっとすごいことやってない?nomadoor.icon
これからはファインチューニング×ControlNetモデルが出てくるのかな?nomadoor.icon
選択肢が無限大すぎる…
5chより
「ControlNetのcontrol_sd15_segの使い方わかった
ADE20kってルールで塗り分けられた画像(色にobjectの種類が割り当てられてる)を食わすと
その意味にそって出力される」
https://gyazo.com/cb175faa69b90893e2458b3fd85a128bhttps://gyazo.com/4dbd43c29bf00b5972bddcb6a7e33c7c
https://gyazo.com/a62b2a342c55dafbd69b76c487e73d81
WebUIのSD-WebUI-ControlNetについて
・どんなもの?
元画像からボーンや輪郭を認識し、それらを参照してt2iで出力できる
・どんな時に使う?
実写や(AI)イラストなどから、似た構図を出力したい時
今回は1枚目→2枚目にする工程を解説します(リプに続きます
https://gyazo.com/3894d7a976ca6b8dc6f8b677294f2f9fhttps://gyazo.com/d960f797c772e19725ab1d82b25c2d95
🤏1.45 GB→723 MB までちっちゃくなった
ControlNet-modules-safetensors pruned fp16 set
ControlNet向けfp16軽量マージはかどるw
配合率(重み)はA+Bの100%足し算になるように
https://gyazo.com/7639cc7b685f57b7ca2f1c4d0d250c60
https://gyazo.com/a722dd21b22f0028140ed0541295966a
ボーンを手書きする人たち
https://gyazo.com/fee4d06d08a6982d25930c1ee2d4f86f
読み取ってくれるボーンのフォーマットがあるのかな?nomadoor.icon
素朴な疑問
Stable Diffusion 1.5以外のモデルでも動くのはなぜ?nomadoor.icon
canny:線画抽出。入力画像は二次元イラストがオススメ
depth:深度情報抽出。入力画像は実写画像オススメ。
hedn:ソフトエッジ検出。使い道が思いつかない
mlsd:直線輪郭のみ検出。3Dモデリングされた部屋を入力する際オススメ
normal_map:法線情報抽出。3Dデッサン人形などを入力すると良い
openpose:姿勢検出。人体の姿勢のみを入力画像から取り出す際有用。
openpose_hand:上記+手と五指検出。手が検出できないときはopenpose同様の処理をするので、openpose使う際は、常にopenpose_handがオススメ
scribble:雑な落書きを元に構図認識。凄まじく雑な入力でもそこそこ意図通り
fake_scribble:入力画像の輪郭を落書き風に変換。用途不明
segmentation:入力画像の領域ごとの各要素を検出・塗り分け。理論上好きな場所に好きな要素を描写できるようになった。革命。