Needle Threading - can LLMs follow through near million scale haystacks?

https://scrapbox.io/files/6747ccdfae971f5bc8fca621.png

Author: ケンブリッジ大学

発行日: 2024年11月

ポイント

この論文を読むことで、長文資料を生成AIに与えるときのヒントが得られる。

つまり、長文ドキュメントを扱うタスクにおいて、以下の方針を立てられる。

GPT-4o、Claude 3.5 Sonnet、Gemini Proを、どんな方針で使い分けるべきか？

重要情報をどこに置くべきか？

ドキュメントを整形する際に、気をつけるべきポイントは？ (クラスターと順方向)

具体的には、以下の業務に生成AIを使っている人は、知っておいた方が良い内容

1つのPDFを読み込ませ、横断的に分析をしている

複数の資料を読みこませ、要約、質疑応答などをしている

長文資料を与えて、思考の壁打ちそしている

課題

needle in a haystackなどの従来の長文ベンチマークには、以下の制限がある

Performance Saturation (パフォーマンスの飽和)

needle in a haystackは、最先端モデルは、もうすでにほぼ完璧なスコアを達成してしまう

Limited context length

ほとんどの長文コンテキストベンチマークでは、評価は10万未満のコンテキストに制限されている。

桁が1つ下回っている

Lack of granular takeaways (詳細な分析の欠如)

コンテキスト長が増加すると、パフォーマンスが低下するという結果以外、調べられていない

そのため、最先端モデルの能力を測定するためには、モデルの限界に近いより困難な実験を行う必要があった。

https://scrapbox.io/files/6747cd7d1f9d19d251e211c6.png

単一ニードル

https://scrapbox.io/files/6747cdff54dc998cb5956fd8.png

スレッディング

https://scrapbox.io/files/6747cdc896e580bbb0ae7d94.png

マルチスレッディング

https://scrapbox.io/files/6747cde4f975711d0892e7db.png

結論

短いコンテキスト長 (<1.2K) => GPT-4oがベスト

中間コンテキスト長 (2.5K ~ 32K) => Claude 3.5 Sonnetがベスト

長いコンテキスト長 (32K<)=> Gemini 1.5 Proがベスト

https://scrapbox.io/files/6747cd0102dccd9ff407facc.png

複雑な資料の追跡 => Claude 3.5 Sonnetがベスト

資料には、関連する内容は塊で書く

資料には、大事な情報は、真ん中に書かない

資料に書く内容は、順方向にする

コンテキスト制限 ≠ 有効コンテキスト長

各社の誇大広告に注意

https://scrapbox.io/files/6747cd18373bf246d40feee2.png

結果

https://scrapbox.io/files/6747cc83ca5a8af0d5315876.png

https://scrapbox.io/files/6747cc983a060c8ddf046de5.png

考慮事項

モデルが少し前のバージョンであり、解釈に注意