モデルサイズ
保存されているパラメータの数
LLMでもsmall/medium/large表記のものがあるんだよ...bsahd.icon
モデルサイズが大きいと推論するために計算量・必要となるVRAMが増える
あくまで目安、ですがFP16/BF16(現在主流の精度)なら数字の2倍、8bit(整数の量子化とかFP8各種とか)だと数字ぶんのVRAMが必要、と考えればよいです。morisoba65536.icon 具体的には12BモデルをFP16/BF16で使うならVRAM24GB必要、8bitなら12GB必要…といった感じ。
いまはデカすぎて主流じゃないですがSD1.5時代にFull精度とかFP32って呼ばれてたやつはFP16/BF16の更に倍、数字の4倍のVRAMを使う…(生成AI用途では精度の割に容量を食いすぎるので2024年時点では学習目的でも既に過去のものとなりつつある感) とか書いてたけど動画生成モデルとかだとFP32ベースで学習されてるモデルがかなりありますね…morisoba65536.icon
table:text2image
モデルの名前 U-Net Text Encoder 備考
table:U-netないやつ
table:蒸留のためアーキテクチャ一緒
よくわからない
StableDiffusion1.5のgithubにOpenCLIPのViT-L-14は123Mと書いてあるが実際は428M?
多分これはFP32精度で保存されてるんじゃないかな…(作られた時代や元のサイズが比較的小さいので)