ControlNet
https://github.com/lllyasviel/ControlNethttps://colab.research.google.com/drive/1VRrDqT6xeETfMsfqYuCGhwdxcC2kLd2P?usp=sharing
モデル https://huggingface.co/lllyasviel/ControlNet
ControlNetモデル
Paper https://arxiv.org/abs/2302.05543Adding Conditional Control to Text-to-Image Diffusion Models
https://gyazo.com/efea3228e0c1145c888b261f91f6771a
neural networkのブロックの重みにトレーニング用のコピーを作る
元のモデルはロックして壊れないようにする
"zero convolution"とは、重みとバイアスを共にゼロで初期化した1×1コンボリューションのことである。??
つまりどういうことだってばよnomadoor.icon
基盤モデル(SD)と事前学習モデルを組み合わせてDepth2imgモデルみたいなものを作るにはA100みたいな超強力なGPUが必要だった
RTX3090tiみたいな個人が持つGPUでもできるようになったよ(?)
https://github.com/cobanov/awesome-controlnetAwesome ControlNet
https://zenn.dev/minux302/articles/e47be4bcd14453新時代の pix2pix? ControlNet 解説
入力に対して画像で条件づけする Diffusion modelである ControlNet の解説をします。
ControlNet with 事前学習モデル
e.g.
Canny Edge
https://gyazo.com/37f8c0441ad71b26daae49c50d9465de
OpenPose
https://gyazo.com/374d9112c26cc1098d9e7e11b5ca49fa
MiDaS depth map
https://gyazo.com/242c04ad5d06fc3616587c70eb77eb7b
M-LSD Lines
https://github.com/lllyasviel/ControlNet/raw/main/github_page/p3.png
HED Boundary
https://github.com/lllyasviel/ControlNet/raw/main/github_page/p5.png
User Scribbles
https://github.com/lllyasviel/ControlNet/raw/main/github_page/p7.png
Fake Scribbles
https://github.com/lllyasviel/ControlNet/raw/main/github_page/p9.png
Semantic Segmentation
https://github.com/lllyasviel/ControlNet/raw/main/github_page/p13.png
Normal Map
https://github.com/lllyasviel/ControlNet/raw/main/github_page/p17.png
Anime line Drawing
https://github.com/lllyasviel/ControlNet/raw/main/github_page/p21.png
これはまだ使えない基素.icon
このあたりさらっとすごいことやってない?nomadoor.icon
これからはファインチューニング×ControlNetモデルが出てくるのかな?nomadoor.icon
選択肢が無限大すぎる…
5chより
「ControlNetのcontrol_sd15_segの使い方わかった
ADE20kってルールで塗り分けられた画像(色にobjectの種類が割り当てられてる)を食わすと
その意味にそって出力される」
理屈はわかるが良い使い方が分からんw写真からオブジェクト色分けしてくれるプログラムとかあんのかな🤔 #AIイラスト PROTO@AiArt
https://gyazo.com/cb175faa69b90893e2458b3fd85a128bhttps://gyazo.com/4dbd43c29bf00b5972bddcb6a7e33c7c
Gradioはクソ
https://github.com/lllyasviel/ControlNet/discussions/12
https://gyazo.com/a62b2a342c55dafbd69b76c487e73d81
https://github.com/Mikubill/sd-webui-controlnetWebUI extension for ControlNet
WebUIのSD-WebUI-ControlNetについて
・どんなもの?
元画像からボーンや輪郭を認識し、それらを参照してt2iで出力できる
・どんな時に使う?
実写や(AI)イラストなどから、似た構図を出力したい時
今回は1枚目→2枚目にする工程を解説します(リプに続きます
#automatic1111 #AIイラスト #AIart Lu:Na:Clock(AI術師)
https://gyazo.com/3894d7a976ca6b8dc6f8b677294f2f9fhttps://gyazo.com/d960f797c772e19725ab1d82b25c2d95
Support Stable Diffusion V2 · lllyasviel/ControlNet@2a4424c · GitHub
さらに、fp16にprunedしたsafetensorsセット!
🤏1.45 GB→723 MB までちっちゃくなった
ControlNet-modules-safetensors pruned fp16 set
https://t.co/POGymJY3lw
ControlNet向けfp16軽量マージはかどるw
配合率(重み)はA+Bの100%足し算になるように
key="control_model."でkeyが違うから全足し forasteran
https://gyazo.com/7639cc7b685f57b7ca2f1c4d0d250c60
ControlNetのPose用2d座標書き出しBlenderプラグインが出来た トニモノ
https://gyazo.com/a722dd21b22f0028140ed0541295966a
ボーンを手書きする人たち
@toyxyz3: ControlNet additional arm test [stable diffusion(stablediffusion)] #AIイラスト #pose2image
https://gyazo.com/fee4d06d08a6982d25930c1ee2d4f86f
読み取ってくれるボーンのフォーマットがあるのかな?nomadoor.icon
素朴な疑問
Stable Diffusion 1.5以外のモデルでも動くのはなぜ?nomadoor.icon
#lllyasviel
https://huggingface.co/docs/diffusers/main/en/using-diffusers/controlling_generationdiffusers
https://economylife.net/controlner-all-preprocessor/# ControlNetの全Preprocessor比較&解説 用途ごとオススメはどれ? | 経済的生活日誌
canny:線画抽出。入力画像は二次元イラストがオススメ
depth:深度情報抽出。入力画像は実写画像オススメ。
hedn:ソフトエッジ検出。使い道が思いつかない
mlsd:直線輪郭のみ検出。3Dモデリングされた部屋を入力する際オススメ
normal_map:法線情報抽出。3Dデッサン人形などを入力すると良い
openpose:姿勢検出。人体の姿勢のみを入力画像から取り出す際有用。
openpose_hand:上記+手と五指検出。手が検出できないときはopenpose同様の処理をするので、openpose使う際は、常にopenpose_handがオススメ
scribble:雑な落書きを元に構図認識。凄まじく雑な入力でもそこそこ意図通り
fake_scribble:入力画像の輪郭を落書き風に変換。用途不明
segmentation:入力画像の領域ごとの各要素を検出・塗り分け。理論上好きな場所に好きな要素を描写できるようになった。革命。
画像のコントロール