TurboQuant
https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/?utm_source=twitter&utm_medium=social&utm_campaign=social_post&utm_content=gr-acct
TurboQuant: Redefining AI efficiency with extreme compression
LLMの KV cache と、RAGなどで使う ベクトル検索用の埋め込みに適応する
ベクトル量子化
長文ベンチマークで KVメモリを少なくとも6倍圧縮
https://github.com/ggml-org/llama.cpp/discussions/20969#discussioncomment-16317415
この技術をウェイトそのものに適用して約3BitでQ4位の性能を出せるらしい(既に
GGUF
形式、
llama.cpp
の拡張版
https://github.com/turbo-tan/llama.cpp-tq3
で対応済みのようだ)
morisoba65536.icon
2026/04/07現在。、TQ3形式はmainブランチにはマージされていないのでGGUFを落としてくるときは注意
#Google