画像生成モデル
well-known models
DALL-E 2
Stable Diffusion
SDXL
Midjourny
NovelAI
ControlNet
other models
Muse_v1
classes
ja: 拡散モデル、拡散確率モデル
現行の主流
denoise から生成してる。
GAN
VAE
Flow
comparison
fig.
https://res.cloudinary.com/zenn/image/fetch/s--JshVPvad--/c_limit%2Cf_auto%2Cfl_progressive%2Cq_auto%2Cw_1200/https://lilianweng.github.io/lil-log/assets/images/generative-overview.png
用語
fine-tuning
abbr. Low-Rank Adaptation
⊂ Adapter tuning
fine-tuning の一種
ref.
text-to-image
abbr. text2image, t2i
image-to-image
abbr. i2i
depth-to-image
ref.
ControlNet
model: pause → image
量子化
8bitないし16bit整数でも計算できる。むしろ速い。
BF16
fine-turing が速くなると言う。
@alfredplpl: 【悲報】今までStable Diffusion のファインチューニングにFP32を使っていたことに気づき、FP16に切り替えたところ3倍早くなった。今更。 補完
inpaint
outpaint
tooling
GUI
reverse conversion: image → prompt
app が ない?
prompt engineering
ref.