QLoRA - work4ai

QLoRA

QLoRA凄そう！

4ビット量子化でメモリ使用量削減でLLaMA 65Bを単一GPUの48GB VRAMで微調整でき

Guanaco 33Bと65BがChatGPTに勝つるｗ

ｸﾞｱﾅｺ13BでもBardに優り

7B/13BならColabで動くだと🫢

LLaMA 65Bを16-bitで微調整にはVRAM780GB必要だった

https://gyazo.com/21c069f76d3da69c3a1052cc7f1e17ca

仕組みとしては(ざっくり理解の解説だと)Loraを学習する際に、読み込むモデルを(基本的には)bitsandbytesの量子化を使って8 or 4bitに量子化してlora学習するというもの

なので出来上がるLoraは理屈上は精度を除き通常のLoraと同じもの(同じレイヤー構造)になる(ハズ)

当然精度は異なるが基本的には個人開発者などが「どうやってもメモリが足りない環境で学習するため」に使うので背に腹は代えられないと言ったとこか…

ある程度実用的な範囲の精度は出るのでそれなりに目にすることは多い。

8bit量子化はFP8が普通に使われ始めてきたこともあり、主なターゲットは4bit量子化(ファイルとしてはbnb nf4と呼ばれがちなもの)と言うことになる