vLLM
https://zenn.dev/kaeru39/articles/1ea73bfa40c7df
LLMの高速化手法。
5. vLLM
paged_attentionを用いた手法
OSの仮想メモリとページングの仕組みを参考
SDPAのkeyとvalueの値を分割してテーブルに保存しておくことで、同じトークンが再度呼び出されたときに、都度計算することなく呼び出しだけで計算を完了させる手法