モデルサイズ
保存されているパラメータの数
LLMなら12Bとか70Bとか表記されている
LLMでもsmall/medium/large表記のものがあるんだよ...bsahd.icon
画像生成モデルのサイズを覚えてられないのでメモ
モデルサイズが大きいと推論するために計算量・必要となるVRAMが増える
あくまで目安、ですがFP16/BF16(現在主流の精度)なら数字の2倍、8bit(整数の量子化とかFP8各種とか)だと数字ぶんのVRAMが必要、と考えればよいです。morisoba65536.icon
具体的には12BモデルをFP16/BF16で使うならVRAM24GB必要、8bitなら12GB必要…といった感じ。
いまはデカすぎて主流じゃないですがSD1.5時代にFull精度とかFP32って呼ばれてたやつはFP16/BF16の更に倍、数字の4倍のVRAMを使う…(生成AI用途では精度の割に容量を食いすぎるので2024年時点では学習目的でも既に過去のものとなりつつある感)
とか書いてたけど動画生成モデルとかだとFP32ベースで学習されてるモデルがかなりありますね…morisoba65536.icon
table:text2image
モデルの名前 U-Net Text Encoder 備考
Stable Diffusion 1.5 860M 123M / CLIP ViT-L/14 256x256
Stable Diffusion 2.0 865M 865M / OpenCLIP ViT-H/14
Stable Diffusion 2.1 428M~865M? / Stable unCLIP 768x768
SDXL 2.6B OpenCLIP ViT-G/14(1.4B)+CLIP-ViT/L(428M) 1024x1024
PIXART 0.6B 11B / Flan T5
Imagen 300M~2B 60M~11B / T5
DeepFloyd IF 850M~6.2B 11B / T5 64x64→1024x1024
Kandinsky 3.0 3B 8.6B / Flan-UL2 MoVQ:267M
Kandinsky 2.2 1.22B 560M / XLM-Roberta-Large-Vit-L/14 Prior:1B
Karlo 900M 428M / CLIP ViT-L/14 Prior:1B
ECLIPSE 930M 1.4B / OpenCLIP ViT-bigG/14
KOALA-700M 782M OpenCLIP ViT-G/14(1.4B)+CLIP-ViT/L(428M)
table:U-netないやつ
Stable Diffusion 3 800M~8B T5(4.7B)+OpenCLIP ViT-bigG/14(2.5B)+CLIP ViT-L/14(428M) 1024x1024
Würstchen B(700M,1.5B),C(1B,3.6B) 428M / OpenCLIP ViT-bigG/14 1024x1024
table:蒸留のためアーキテクチャ一緒
SDXL-Turbo 512x512
SDXL-Lightning 1024x1024
Stable Cascade Würstchenアーキテクチャ
よくわからない
StableDiffusion1.5のgithubにOpenCLIPのViT-L-14は123Mと書いてあるが実際は428M?
多分これはFP32精度で保存されてるんじゃないかな…(作られた時代や元のサイズが比較的小さいので)
ref https://github.com/vladmandic/sdnext/wiki/Models