LLMの量子化
ZennLLM 4bit 量子化ライブラリ(CPU, GPU)のメモ(2023/05 時点)
GGML/GGUF/GPTQの違い
どの量子化がいいのか
https://engineering.linecorp.com/ja/blog/quantization-lightweighting-llms【インターンレポート】量子化による大規模言語モデル軽量化の効果測定
LLM
量子化