vLLM
https://gyazo.com/236a12df8554e02bcff6bdd40f8669f5
https://github.com/vllm-project/vllmvllm-project/vllm
https://vllm.readthedocs.io/en/latest/index.htmlWelcome to vLLM!
LMSYS ORG開発
https://vllm.ai/ブログ/仕組み
vLLMはHFと比較して最大24倍、TGIと比較して最大3.5倍のスループットを達成した。
参考
大規模言語モデルの出力スピードを最大24倍に高めるライブラリ「vLLM」が登場、メモリ効率を高める新たな仕組み「PagedAttention」とは?
もしかして:vlm