StreamingLLM

わけではなくLLMが無限のコンテキスト長に対応できるようになる(?)

https://gyazo.com/f760d2edfc2abf4ef8719d10aa4da3a7

長いテキストを処理する際に、初期のトークンが後続のトークンに対するattention scoreを占有し、新しい情報の取り込みを阻害する

StreamingLLMではattention sinkをキャッシュに保持することでWindow Attentionの性能低下を防ぐ

参考