vLLM
https://gyazo.com/72e3020f4a8f8a1fd1ddd9f96a497a54
https://github.com/vllm-project/vllm
vllm-project/vllm
https://vllm.readthedocs.io/en/latest/index.html
Welcome to vLLM!
LMSYS ORG
開発
https://vllm.ai/
ブログ/仕組み
vLLMは
HF
と比較して最大24倍、
TGI
と比較して最大3.5倍の
スループット
を達成した。
参考
大規模言語モデルの出力スピードを最大24倍に高めるライブラリ「vLLM」が登場、メモリ効率を高める新たな仕組み「PagedAttention」とは?