vLLM - mmns-memo

vLLM

https://github.com/vllm-project/vllm

vLLM で Llama 4 をデプロイする際の最適なコンテキスト長を検証する - Fixstars Tech Blog /proc/cpuinfo

巨大なLLMモデルをマルチGPUで動かす！～モデル分割方法による速度の違い～｜AIサトシ

vLLMの仕組みをざっくりと理解する | データアナリティクスラボ

LLVM: lib/TargetParser/TargetParser.cpp Source File

https://deepwiki.com/search/rocmflashattnpy_2606f954-9dd4-4b6b-b8fb-3509e9d11bd9

https://github.com/LambdaLabsML/llama3-distributed-serving

Llama 3.1 405B をマルチノードで実行する例らしい