Needle Threading - can LLMs follow through near million scale haystacks?
https://scrapbox.io/files/6747ccdfae971f5bc8fca621.png
Author: ケンブリッジ大学
発行日: 2024年11月
ポイント
この論文を読むことで、長文資料を生成AIに与えるときのヒントが得られる。
つまり、長文ドキュメントを扱うタスクにおいて、以下の方針を立てられる。
GPT-4o、Claude 3.5 Sonnet、Gemini Proを、どんな方針で使い分けるべきか?
重要情報をどこに置くべきか?
ドキュメントを整形する際に、気をつけるべきポイントは? (クラスターと順方向)
具体的には、以下の業務に生成AIを使っている人は、知っておいた方が良い内容
1つのPDFを読み込ませ、横断的に分析をしている
複数の資料を読みこませ、要約、質疑応答などをしている
長文資料を与えて、思考の壁打ちそしている
課題
Performance Saturation (パフォーマンスの飽和)
Limited context length
ほとんどの長文コンテキストベンチマークでは、評価は10万未満のコンテキストに制限されている。
桁が1つ下回っている
Lack of granular takeaways (詳細な分析の欠如)
コンテキスト長が増加すると、パフォーマンスが低下するという結果以外、調べられていない
そのため、最先端モデルの能力を測定するためには、モデルの限界に近いより困難な実験を行う必要があった。
https://scrapbox.io/files/6747cd7d1f9d19d251e211c6.png
単一ニードル
https://scrapbox.io/files/6747cdff54dc998cb5956fd8.png
スレッディング
https://scrapbox.io/files/6747cdc896e580bbb0ae7d94.png
マルチスレッディング
https://scrapbox.io/files/6747cde4f975711d0892e7db.png
結論
短いコンテキスト長 (<1.2K) => GPT-4oがベスト
中間コンテキスト長 (2.5K ~ 32K) => Claude 3.5 Sonnetがベスト
長いコンテキスト長 (32K<)=> Gemini 1.5 Proがベスト
https://scrapbox.io/files/6747cd0102dccd9ff407facc.png
複雑な資料の追跡 => Claude 3.5 Sonnetがベスト
資料には、関連する内容は塊で書く
資料には、大事な情報は、真ん中に書かない
資料に書く内容は、順方向にする
コンテキスト制限 ≠ 有効コンテキスト長
各社の誇大広告に注意
https://scrapbox.io/files/6747cd18373bf246d40feee2.png
結果
https://scrapbox.io/files/6747cc83ca5a8af0d5315876.png
https://scrapbox.io/files/6747cc983a060c8ddf046de5.png
考慮事項
モデルが少し前のバージョンであり、解釈に注意
関連