vLLM - work4ai

vLLM

https://gyazo.com/236a12df8554e02bcff6bdd40f8669f5

https://github.com/vllm-project/vllmvllm-project/vllm

https://vllm.readthedocs.io/en/latest/index.htmlWelcome to vLLM!

LMSYS ORG開発

https://vllm.ai/ブログ/仕組み

vLLMはHFと比較して最大24倍、TGIと比較して最大3.5倍のスループットを達成した。

参考

大規模言語モデルの出力スピードを最大24倍に高めるライブラリ「vLLM」が登場、メモリ効率を高める新たな仕組み「PagedAttention」とは？

もしかして:vlm