GPTsに大きなサイズの知識ファイルを与える弊害
大きいサイズのファイルを与えると、
プロンプトで指定した指示を忘れてしまったり
ファイルの内容をうまく読み込んでくれなくなってしまう。
なぜ?
OpenAIのAssistants API公式ドキュメントによると、2つの検索テクニックのどちらかを自動的に選択する
短いドキュメントの場合
プロンプトにファイルの内容を渡す。
長いドキュメントの場合
ベクトル検索を行う。
例えば、4000文字のテキストファイルを10個ファイルで渡した場合...
https://scrapbox.io/files/65eec53a061fa70025c3df1b.png
これらのテキストは、プロンプトに追加されてしまう。
「ドキュメント」は大規模な文書の検索と要約に適しているが、システムの指示の一部として扱われる。
また、OpenAIの公式ドキュメント「 モデルに考える時間を与える」の章では以下の記述がある
ドキュメントが大きい場合、モデルが早く停止し、関連するすべての抜粋をリストアップしないことがよくあります。
対処法
この解決策として提唱しているのが、mdファイルを指定する方法。
https://scrapbox.io/files/65eec5769c0b3300252f212d.png
世界で一番使われているGPTs Grimoireの作者のツイート
mdファイルとして渡し、コードインタープリター経由で読み取らせると、コンテキストオーバーフローを回避できる
「ファイル」は、詳細な引用や根拠の提供に有効であり、システムプロンプトに含まれないため。
そのため、必要な時にのみドキュメントを取得することになり、全体のパフォーマンスが向上が望める。
はっきりしたエビデンスはないが、n=1の観測では、全体的なパフォーマンスを劇的に改善したとのこと。