vLLM
https://github.com/vllm-project/vllm
https://docs.vllm.ai/en/latest/getting_started/quickstart.html
サーブの設定値
https://docs.vllm.ai/en/latest/models/engine_args.html
npakaさん
Google Colab で vLLM を試す
elyza/ELYZA-japanese-Llama-2-13b-instruct
LLM.generateでオフライン推論