StreamingLLM
https://github.com/mit-han-lab/streaming-llmmit-han-lab/streaming-llm
https://arxiv.org/abs/2309.17453Efficient Streaming Language Models with Attention Sinks
既存のLLMがコンテキスト長が無限になる
わけではなくLLMが無限のコンテキスト長に対応できるようになる(?)
https://gyazo.com/f760d2edfc2abf4ef8719d10aa4da3a7
(a) : Dense Attention
(b) : Window Attention
(c) : Sliding Window with Re-computation
attention sink
長いテキストを処理する際に、初期のトークンが後続のトークンに対するattention scoreを占有し、新しい情報の取り込みを阻害する
StreamingLLMではattention sinkをキャッシュに保持することでWindow Attentionの性能低下を防ぐ
参考
大規模言語モデルで「無限の入力」を受け付けることを可能にする手法「StreamingLLM」が開発される