LLMの圧縮・高速化
SpQR: ほぼ損失のない LLM 重み圧縮のためのスパース量子化表現より
Understanding INT4 Quantization for Transformer Models: Latency Speedup, Composability, and Failure Cases
A Simple and Effective Pruning Approach for Large Language Models
Google Colab で vLLM を試す
Towards Efficient Generative Large Language Model Serving: A Survey from Algorithms to Systems
高速AI推論「Groq」を試す
深層モデルの高速化
vLLMを利用したLLM推論高速化テクニック
vLLMを利用したLLM推論高速化テクニック
vLLMのOpenAI APIインターフェースサーバーでバッチ推論をさせる
vLLM V1: A Major Upgrade to vLLM's Core Architecture
blueqat
TensorRT-LLMによるRTX 5090でのLLMのNVFP4量子化・推論