TurboQuant
https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/?utm_source=twitter&utm_medium=social&utm_campaign=social_post&utm_content=gr-acctTurboQuant: Redefining AI efficiency with extreme compression
LLMの KV cache と、RAGなどで使う ベクトル検索用の埋め込みに適応するベクトル量子化
長文ベンチマークで KVメモリを少なくとも6倍圧縮
https://github.com/ggml-org/llama.cpp/discussions/20969#discussioncomment-16317415この技術をウェイトそのものに適用して約3BitでQ4位の性能を出せるらしい(既にGGUF形式、llama.cppの拡張版https://github.com/turbo-tan/llama.cpp-tq3で対応済みのようだ)morisoba65536.icon
2026/04/07現在。、TQ3形式はmainブランチにはマージされていないのでGGUFを落としてくるときは注意
#Google