FlexGen - work4ai

FlexGen

ChatGPTやCopilotなどのアプリケーションでは、大規模言語モデル（LLM）が中心となっていますが、LLMの推論には高い計算量とメモリが必要なため、従来は複数のハイエンドアクセラレータでないと実現できませんでした。 FlexGenは、LLM推論のリソース要件を単一のコモディティGPU（例：T4、3090）まで下げ、様々なハードウェアセットアップに柔軟に展開できるようにすることを目標としています。

LLM最適化