StreamingLLM
https://github.com/mit-han-lab/streaming-llm
mit-han-lab/streaming-llm
https://arxiv.org/abs/2309.17453
Efficient Streaming Language Models with Attention Sinks
既存のLLMが
コンテキスト長が無限
になる
わけではなくLLMが無限のコンテキスト長に対応できるようになる(?)
https://gyazo.com/f760d2edfc2abf4ef8719d10aa4da3a7
(a) :
Dense Attention
(b) :
Window Attention
(c) :
Sliding Window with Re-computation
attention sink
長いテキストを処理する際に、初期のトークンが後続のトークンに対するattention scoreを占有し、新しい情報の取り込みを阻害する
StreamingLLMではattention sinkをキャッシュに保持することでWindow Attentionの性能低下を防ぐ
参考
大規模言語モデルで「無限の入力」を受け付けることを可能にする手法「StreamingLLM」が開発される