LLMの量子化 - work4ai

LLMの量子化

ZennLLM 4bit 量子化ライブラリ(CPU, GPU)のメモ(2023/05 時点)

GGML/GGUF/GPTQの違い

どの量子化がいいのか

https://engineering.linecorp.com/ja/blog/quantization-lightweighting-llms【インターンレポート】量子化による大規模言語モデル軽量化の効果測定