GPTQ
https://arxiv.org/abs/2210.17323
量子化の方法を学習することでより適切な4ビット量子化を実行する
GPTQ形式
https://www.reddit.com/r/LargeLanguageModels/comments/13jvi7r/whats_the_difference_between_ggml_and_gptq_models/
GPTQ は GPU 専用の特定の形式です。
GGML
は CPU および Apple M シリーズ向けに設計されていますが、GPU 上の一部のレイヤーをオフロードすることもできます
GPTQはCUDA特化型
GPTQ なるものをシュッと|bbz
TheBloke
さんがいくつか変換したモデルを投稿している
いくつかなんてレベルじゃなくなってきてるな
wogikaze.icon
https://gyazo.com/577d78d21a67fefa2f8e46961ddb90d9
量子化