Needle Threading - can LLMs follow through near million scale haystacks?
論文の内容
LLMの長文コンテキストにおける情報検索・推論能力を評価する実験を行い、17のLLMモデルの比較を実施した。
先行研究との違い
既存の長文評価はモデルの限界に届かない短いコンテキストでの評価が主流
実際の文書を使用するため、性能低下の要因分析が困難
フロンティアモデルでは単純な検索タスクで飽和してしまう
技術や手法のキモ
UUID形式のkey-value対をランダムに生成し、最大90万トークンの文脈で評価
単一の値検索、複数値検索、条件付き検索など複数の難易度の異なるタスクを設計
情報の連鎖を追跡する「スレッド追跡」タスクを導入
効果的なコンテキスト長の定量的な評価指標を提案
トークナイザーの違いによる影響も考慮
検証方法
17種類のLLMに対して、12種類の異なる長さのコンテキストで評価を実施
各タスクについて、複数回の繰り返し実験を行い統計的な信頼性を確保
モデルのトークナイザーの違いを考慮し、文字数ベースの比較も実施
コンテキストの長さやスレッド長などのパラメータを段階的に変化させて性能を分析
議論
多くのモデルは公称のコンテキスト長よりも短い「有効コンテキスト長」しか持たない
スレッド追跡タスクでは、前方向の追跡が後方向よりも容易
並列スレッド処理では、スレッド数の増加による性能低下は限定的
次に読むべき論文
Liu et al. "Lost in the Middle: How Language Models Use Long Contexts" TACL 2024
Zhang et al. "∞bench: Extending Long Context Evaluation Beyond 100k Tokens" ACL 2024
Li et al. "NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window?" arXiv 2024
Song et al. "Counting-stars: A Simple, Efficient, and Reasonable Strategy for Evaluating Long-context Large Language Models" arXiv 2024
関連