GPTsのKnowledge機能
ポイント
最大20個のファイル、最大512MB、最大200万トークンのファイルをGPTsに与えることができる。
セマンティック検索
ユーザーからの質問に対して、知識ファイルの中から最も関連性の高い情報を見つけ出すことを目的としている。
例えば、ユーザーが「経費精算の申請期限はいつですか?」と質問した場合、GPTはセマンティック検索を使って知識ファイルの中から「経費精算の申請期限」に関する具体的な情報を探す。この場合、GPTは知識ファイルの中から「経費精算の申請は毎月15日までに行ってください」といった文章を見つけ出し、それを回答に利用する。
Q & Aに向いてる
ドキュメントレビュー
一方、ドキュメントレビューは、ユーザーからの要求に応じて、知識ファイルの中から関連するドキュメントや文章を取得し、それを基にして回答を生成することを目的としている。
例えば、ユーザーが「経費精算のプロセスを教えてください」と要求した場合、GPTはドキュメントレビューを使って知識ファイルの中から経費精算に関連するドキュメント全体や、関連する部分を抜粋する。そして、取得したドキュメントや抜粋を分析し、経費精算のプロセスを説明する回答を生成する。
要約や翻訳、文書の説明などに向いている
両者の違い
セマンティック検索は、具体的な質問に対して最も関連性の高い情報を見つけ出すことに特化しています。
ドキュメントレビューは、より広範なトピックについての要求に応じて、関連するドキュメントや文章を取得し、それを基に回答を生成することに特化しています。
GPTがドキュメントからテキストを抽出する際に、ファイルの書式設定が重要
複雑なレイアウトや画像ベースのドキュメントは、パーサーが正確にテキストを抽出できない可能性があるため、避けるべき
良い例:
1. シンプルなテキストファイル(.txt):
テキストのみが含まれており、書式設定がないため、パーサーが内容を正確に抽出できます。
2. シンプルな書式設定のWord文書(.docx):
テキストが単一の列で構成されており、書式設定が最小限に抑えられているため、パーサーが内容を正確に抽出できます。
3. シンプルな書式設定のPDF文書:
テキストが単一の列で構成されており、画像や複雑なレイアウトがないため、パーサーが内容を正確に抽出できます。
まずい例:
1. 複雑なレイアウトのPDF文書:
テキストが複数の列で構成されていたり、画像やグラフが多数含まれていたりする場合、パーサーがテキストを正確に抽出するのが難しくなります。
2. 画像ベースのPDF文書:
スキャンされた書類など、テキストが画像として埋め込まれている場合、パーサーはテキストを認識・抽出するのが困難です。
3. 複雑なレイアウトのPowerPointスライド:
テキストの位置や大きさ、色などが重要な情報を伝えている場合、パーサーはそのニュアンスを理解できません。例えば、「重要」という単語が大きく赤色で強調されていても、パーサーはそれを通常のテキストとして扱います。
GPTに、アップロードされた知識ファイルを優先的に使用させる方法
code:markdown
・正確性を確保するために、外部の情報源やウェブサイトを参照せずに、添付されたド キュメントにあるデータのみに基づいて回答してください。
・回答を生成する際は、提供された知識ベースファイルの情報を優先的に使用し、インターネット検索の使用は避けてください。
概要
知識とは何ですか?
GPTの知識機能を使用することで、開発者は追加のコンテキストを含むファイルをアップロードすることができます。その後、GPTは様々な方法を用いて、ユーザーのプロンプトに応じてこのデータにアクセスします。
知識はどのように機能しますか?
GPTエディタを使用して、最大20個のファイルをGPTに添付できます。各ファイルは最大512 MBのサイズで、2,000,000トークンを含むことができます。画像を含むファイルを含めることもできますが、現在処理されるのはテキストのみです。
ファイルをアップロードすると、GPTはテキストをチャンクに分割し、埋め込み(テキストを数学的に表現する方法)を作成し、後で使用するために保存します。
ユーザーがGPTとやり取りする際、GPTはアップロードされたファイルにアクセスして、ユーザーのクエリを拡張するための追加のコンテキストを取得できます。GPTは、ユーザーのプロンプトの要件に基づいて、次のいずれかの方法を選択します。
上記のように、関連するテキストチャンクを返します。
特定のソースドキュメントの一部が必要な「Q&A」スタイルのプロンプトに応答する際に好まれます。
ドキュメントレビュー
短いドキュメント全体および/またはより大きなドキュメントの関連する抜粋が返され、追加のコンテキストとしてプロンプトに含まれます。
ソースドキュメント全体が必要な要約や翻訳のプロンプトに応答する際に好まれます。
この2つの違いが、よくわからなかったが、こういうことか。
https://scrapbox.io/files/66585cd5d827da001d316e6e.png
知識をいつ使用すべきか
現在、GPTに添付されたファイルを管理する唯一の方法は、GPTビルダーUIを使用することです。これは、コンテキストが頻繁に変更されないアプリケーション(従業員ハンドブック、ポリシードキュメント、学校のカリキュラムなど)に最適です。
知識を最大限に活用するためのヒント
ドキュメントからテキストを抽出するために使用するファイルパーサーは、シンプルな書式設定で最もうまく機能します。テキストの単一の列が最適です。パーサーは複数列のPDFで苦労する可能性があり、PowerPointスライド上のテキストの相対的な位置によって伝達されるニュアンスを理解しません。
GPTエディタの指示を使用して、インターネットを検索する前に、まず知識に頼るようGPTに促すことができます。
デフォルトでは、GPTはアップロードされたファイルの名前を明らかにしないようにします。GPTに「情報源を引用する」ようにしたい場合は、指示でそれを示してください。
関連