どの量子化がいいのか
https://arxiv.org/abs/2212.09720
The case for 4-bit precision: k-bit Inference Scaling Laws
https://gyazo.com/06f1a4d13ed45b8d470eacb5d27bb6b0
16bitの30B vs 8bitの60B
ファイルサイズは同じ
8bitの60Bのほうが性能が高い
3bitまで下げると性能が落ちる
量子化