QLoRA
QLoRA凄そう!
4ビット量子化でメモリ使用量削減でLLaMA 65Bを単一GPUの48GB VRAMで微調整でき
グアナコ13BでもBardに優り
7B/13BならColabで動くだと🫢
LLaMA 65Bを16-bitで微調整にはVRAM780GB必要だった
https://gyazo.com/21c069f76d3da69c3a1052cc7f1e17ca
仕組みとしては(ざっくり理解の解説だと)Loraを学習する際に、読み込むモデルを(基本的には)bitsandbytesの量子化を使って8 or 4bitに量子化してlora学習するというもの なので出来上がるLoraは理屈上は精度を除き通常のLoraと同じもの(同じレイヤー構造)になる(ハズ)
当然精度は異なるが基本的には個人開発者などが「どうやってもメモリが足りない環境で学習するため」に使うので背に腹は代えられないと言ったとこか…
ある程度実用的な範囲の精度は出るのでそれなりに目にすることは多い。
8bit量子化はFP8が普通に使われ始めてきたこともあり、主なターゲットは4bit量子化(ファイルとしてはbnb nf4と呼ばれがちなもの)と言うことになる