GPTsに大きなサイズの知識ファイルを与える弊害

大きいサイズのファイルを与えると、

プロンプトで指定した指示を忘れてしまったり

ファイルの内容をうまく読み込んでくれなくなってしまう。

なぜ？

OpenAIのAssistants API公式ドキュメントによると、2つの検索テクニックのどちらかを自動的に選択する

短いドキュメントの場合

プロンプトにファイルの内容を渡す。

長いドキュメントの場合

ベクトル検索を行う。

例えば、4000文字のテキストファイルを10個ファイルで渡した場合...

https://scrapbox.io/files/65eec53a061fa70025c3df1b.png

これらのテキストは、プロンプトに追加されてしまう。

「ドキュメント」は大規模な文書の検索と要約に適しているが、システムの指示の一部として扱われる。

その結果、コンテキストウィンドウ(GPTの短期記憶)の容量が圧迫され、指示を忘れてしまう。

また、OpenAIの公式ドキュメント「モデルに考える時間を与える」の章では以下の記述がある

ドキュメントが大きい場合、モデルが早く停止し、関連するすべての抜粋をリストアップしないことがよくあります。

これも、コンテキストウィンドウの問題と関係してくるだろう。

対処法

この解決策として提唱しているのが、mdファイルを指定する方法。

https://scrapbox.io/files/65eec5769c0b3300252f212d.png

世界で一番使われているGPTs Grimoireの作者のツイート

mdファイルとして渡し、コードインタープリター経由で読み取らせると、コンテキストオーバーフローを回避できる

「ファイル」は、詳細な引用や根拠の提供に有効であり、システムプロンプトに含まれないため。

そのため、必要な時にのみドキュメントを取得することになり、全体のパフォーマンスが向上が望める。

はっきりしたエビデンスはないが、n=1の観測では、全体的なパフォーマンスを劇的に改善したとのこと。