vLLM
#LLM
https://github.com/vllm-project/vllm
vLLM で Llama 4 をデプロイする際の最適なコンテキスト長を検証する - Fixstars Tech Blog /proc/cpuinfo
巨大なLLMモデルをマルチGPUで動かす!~モデル分割方法による速度の違い~|AIサトシ
vLLMの仕組みをざっくりと理解する | データアナリティクスラボ
LLVM: lib/TargetParser/TargetParser.cpp Source File
https://deepwiki.com/search/rocmflashattnpy_2606f954-9dd4-4b6b-b8fb-3509e9d11bd9
https://github.com/LambdaLabsML/llama3-distributed-serving
Llama 3.1 405B をマルチノードで実行する例らしい