FlexGen
https://arxiv.org/abs/2303.06865
https://github.com/FMInference/FlexGen
Paper :
https://github.com/FMInference/FlexGen/blob/main/docs/paper.pdf
ChatGPT
や
Copilot
などのアプリケーションでは、大規模言語モデル(LLM)が中心となっていますが、LLMの推論には高い計算量とメモリが必要なため、従来は複数のハイエンドアクセラレータでないと実現できませんでした。 FlexGenは、LLM推論のリソース要件を単一のコモディティGPU(例:T4、3090)まで下げ、様々なハードウェアセットアップに柔軟に展開できるようにすることを目標としています。
LLM
最適化