MedPrompt論文
https://scrapbox.io/files/664e9bd00f64e2001d4a1127.png
論文情報
タイトル:Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case Study in Medicine
発行日:2023年11月
著者:Harsha Nori et al
所属:Microsoft
論文のポイント
純粋なGPT-4 + プロンプトエンジニアリングにおいて、医療という専門能力がどれだけ向上するかを探求した論文 https://scrapbox.io/files/665323e9728da2001c236367.png
Few-Shotの例示の選択と、self-generated CoT、そして多数決によるアンサンブリングを組み合わせた手法 https://scrapbox.io/files/664e9da2ea1623001d383a30.png
https://scrapbox.io/files/665322958a31d7001d9e6845.png
Medpromptを使用したGPT-4は、すべてのベンチマークで他のすべてのモデルを上回る。
Self Generated CoTが最もパフォーマンスの向上に寄与している
https://scrapbox.io/files/665338155f549f001c06a855.png
医療だけではなく、電気工学、機械学習、哲学、会計学、法学、看護学、および臨床心理学など、様々な分野に適応できる
https://scrapbox.io/files/6653dcabd4b329001d0aebb8.png
概要
GPT-4などの汎用基礎モデルは、多岐にわたる領域やタスクで驚異的な能力を示しています。しかし、専門知識を持つモデルには及ばないという一般的な前提があります。これまでの医療関連のベンチマークでは、BioGPTやMed-PaLMのようなドメイン特化のトレーニングが用いられてきました。本研究では、特別なトレーニングを行わずに医療チャレンジベンチマークにおけるGPT-4の専門能力を調査します。簡単なプロンプトを使用してモデルの基本能力を引き出すのではなく、プロンプトエンジニアリングを用いてパフォーマンスを向上させる体系的な探求を行います。 プロンプトの革新により、GPT-4の専門能力をさらに引き出し、医療の質問応答データセットでトップの結果を容易に達成できることを示します。我々の調査で導入したプロンプトエンジニアリングの手法は一般的なものであり、ドメイン専門知識を使用することなく専門家がキュレーションしたコンテンツを必要としません。我々の実験デザインは、プロンプトエンジニアリングの過程での過学習を慎重に管理しています。この研究の集大成として、Medpromptを紹介します。これは、いくつかのプロンプト戦略を組み合わせたものです。Medpromptは、GPT-4のパフォーマンスを大幅に向上させ、MultiMedQAスイートのすべてのベンチマークデータセットで最新の結果を達成します。この方法は、Med-PaLM 2のような最新の専門モデルを、モデルの呼び出し数を大幅に削減しつつ、大幅に上回ります。Medpromptを使用したGPT-4は、MedQAデータセット(USMLE試験)で最新の専門モデルより27%のエラー率削減を達成し、初めて90%を超えるスコアを達成します。医療チャレンジ問題を超えて、他のドメインへのMedpromptの一般化の力を示し、電気工学、機械学習、哲学、会計学、法学、看護学、および臨床心理学の能力試験に関する研究を通じて、このアプローチの広範な適用可能性の証拠を提供します。 1. はじめに
AI研究における長期的な目標は、計算知能の原理を開発し、これを活用して多様なタスクにわたる一般的な問題解決を行う学習および推論システムを構築することです。この目標に沿って、GPT-3やGPT-4のような大規模言語モデル(基礎モデルとも呼ばれる)は、特別な訓練を必要とせずに幅広いタスクで驚異的な能力を示しています。これらのモデルは、テキストからテキストへのパラダイムに基づき、大量の公開ウェブデータから大規模に学習するための計算資源とデータへの投資を行っています。これらのモデルは、一般的な指示に従うプロンプトを通じてチューニングされる学習目標を持っています。 基礎モデルのパフォーマンスを特徴付けるための主要な指標は、次の単語予測の精度です。次の単語予測の精度は、トレーニングデータ、モデルパラメータ、計算量の規模に伴って向上し、経験的に導出された「ニューラルモデルのスケーリング則」に従います。しかし、基本的な指標(例:次の単語予測)に関するスケーリング則の予測を超えて、基礎モデルは異なるスケールのしきい値で突然発現する多くの問題解決能力を示します。 一般的な能力のセットの発現にもかかわらず、特定の領域(例:医学)での大規模な専門トレーニングや一般モデルの微調整なしに、真に卓越したパフォーマンスを達成できるかどうかには疑問が残ります。バイオメディカルアプリケーションにおける基礎モデル能力のほとんどの探索は、ドメインおよびタスク固有の微調整に大きく依存しています。初期の基礎モデルでは、PubMedBERTやBioGPTなどのバイオメディカルドメインで人気のあるモデルが示すように、ドメイン固有の事前トレーニングが明確な利点を持っていることが示されました。しかし、現代の基礎モデルがはるかに大規模に事前トレーニングされている場合、これはまだ当てはまるかどうかは不明です。
本稿では、プロンプトエンジニアリングを通じて基盤モデルを操作し、医療の課題ベンチマークをいくつか優位に達成することに焦点を当てています。Med-PaLM 2は、一般のPaLM基盤モデルを、タスク固有の高価なファインチューニングによって、MedQAやその他の医療上の課題問題で競争力のある結果を達成しています。基盤となるPaLMモデルのファインチューニングに依存するだけでなく、Med-PaLM 2の医療ベンチマークにおける結果は、専門家が作成したサンプルを利用した、洗練された複雑なプロンプト戦略の使用を通じて生成されました。たとえば、多くの回答は、各質問に対する44回の呼び出しという、複雑な2段階プロンプトスキームに依存しています。 2023年3月にGPT-4が公開された直後、本研究の共著者である数人は、モデルが医療の課題ベンチマークで「箱出し」で印象的なバイオメディカル能力を持っていることを示しました。専門的な医療知識におけるGPT-4の潜在的な力を示すために、共著者は意図的に基本的なプロンプト戦略を採用しました。その研究では強力な結果が示されましたが、追加の専門トレーニングやチューニングがない場合、GPT-4のドメイン固有の能力の深さについての疑問が残っています。 私たちは、革新的なプロンプト戦略を使用して、医療の課題に関する質問に答えるためにGPT-4を操作するケーススタディの結果と手法を紹介します。評価設定におけるプロンプトの研究のためのベストプラクティスを検討し、真の「目隠し」評価セットの保持を含みます。私たちは、GPT-4が実際にはプロンプトの革新を通じて呼び起こすことができる深い専門家能力を持っていることを発見しました。パフォーマンスは、プロンプト戦略の体系的な調査を通じて達成されました。設計原則として、私たちは、実行コストが安価で、ベンチマークのワークロードに合わせてカスタマイズされていないプロンプト戦略を探求することにしました。私たちは、医療の課題問題に対するGPT-4の最良のプロンプト戦略に収束し、それをMedpromptと呼びます。MedPromptは、専門家による作成なしに、医療の専門知識をGPT-4に解き放ち、標準的な医療質問応答データセットすべての既存のベンチマークを簡単に上回ります。この手法は、簡単なプロンプト戦略を使用したGPT-4と、Med-PaLM 2などの最先端の専門家モデルを、大幅な差で上回ります。MedQAデータセット(USMLE試験)では、Medpromptは精度で9ポイントの向上を実現し、このベンチマークで初めて90%を超えています。 確かに、これは意外よね。
私たちは、GPT-4が、特に、インコンテキスト学習に使用する独自の思考の連鎖を思いつくことで、独自のプロンプトを設計することを許可されることで、大幅に恩恵を受けることを発見しました。
💡賢い子には、好きにやらせるのが一番ということか
この観察結果は、GPT-4が自己検証など、内省を通じて自己改善する能力が生まれているという他の報告と一致しています。
私たちは、自動化された思考の連鎖推論により、人間の専門知識や医療データセットへの依存がなくなることに注意します。したがって、Medpromptという名前にもかかわらず、私たちの研究のフレームワークと、医療の課題問題におけるGPT-4の能力の研究軌跡から拡張されていますが、この手法には医学に特化したコンポーネントは含まれていません。セクション5.3で詳しく説明するように、この手法は他のドメインに容易に適用できます。
これがインパクトが大きい。
医療以外にも活用できる。プロンプトだけで大幅改善!
私たちは、一般化された基盤モデルを操作して専門的なアドバイスを提供するための、今後の研究を容易にするために、Medpromptの詳細を紹介します。
2 背景
2.1 医療の課題問題における基盤モデル
省略
2.2 プロンプト戦略
CoT (Chain-of-Thought)は、サンプルの回答を導入する前に、中間的な推論ステップを採用するプロンプト手法です。CoTは、複雑な問題をいくつかの小さなステップに分解することで、基盤モデルがより正確な回答を生成するのに役立つと考えられています。CoT ICLプロンプトは、CoTの中間推論ステップをフューショットデモに直接統合します。例として、Med-PaLMの研究では、臨床医の専門パネルに、複雑な医療の課題問題に合わせて調整されたCoTプロンプトを作成するように依頼されました。この研究に基づいて、本稿では、人間の専門知識への依存を、GPT-4自体を使用してCoTデモを自動的に生成するメカニズムに移す可能性を探求します。後で詳しく説明しますが、これは、トレーニングデータセットから[質問、正しい回答]のペアを提供することで、うまくいくことが分かります。私たちは、GPT-4が、最も複雑な医療上の課題に対しても、高品質で詳細なCoTプロンプトを自律的に生成できることを発見しました。 GPT-4を使って、高品質なCoTデモを作れるのか
アンサンブルとは、複数のモデル実行の出力値を組み合わせることで、平均、コンセンサス、多数決などの関数で別々の出力値を組み合わせることで、より堅牢な、またはより正確な結果を得るための手法です。
Self-Consistencyと呼ばれる手法を採用したアンサンブル手法では、サンプリング手法を使用して、複数出力値を生成し、その後統合してコンセンサス出力値を特定します。出力値の多様性は、モデルの生成における「温度」パラメータを変更することで制御することができ、温度が高いほど、生成プロセスにランダム性がより多く注入されるものと見なすことができます。フューショットプロンプトの構成要素を並べ替えるか、シャッフルすることで、アンサンブル手法は、基盤モデルに見られる一般的な順序依存性に対処することもでき、堅牢性を向上させることができます。 アンサンブルはパフォーマンスを向上させることができますが、計算要求が増加するという代償を伴います。たとえば、Med-PaLM 2のアンサンブルリファインメント手法は、1つの質問に対して最大44回の別々の推論を使用していました。この計算オーバーヘッドのため、私たちは、過剰な推論コストを避けるために、より単純な手法を使用するという設計原則に従ってきました。セクション5.2では、計算負荷の増加によってパフォーマンスがさらに向上する可能性を探求するアブレーション研究を報告します。 3 実験設計
ここでは、医療の課題問題データセットの概要を紹介し、その後、固定された評価データセットに対して集中的な反復を行うことで発生する可能性のある過剰適合を避けるように設計されたテスト方法について説明します。
3.1 データセット
セクション5に示されているように、私たちのベンチマークは、主にMultiMedQAベンチマークスイートの9つの多肢選択式のバイオメディカルデータセットにおけるGPT-4のパフォーマンスに基づいています。具体的には、ベンチマークには以下が含まれます。 MedQA には、米国の医師国家試験(USMLE)で医療専門家の能力を試験するために使用される、米国の医師国家試験の質問形式の多肢選択式の問題が含まれています。以前の研究との公平な比較のために、私たちはデータセットの米国サブセットに焦点を当てています。このサブセットは、米国の医師国家試験(USMLE)のスタイルの英語で書かれた問題が含まれています。このデータセットには、それぞれ4つの多肢選択式回答が付けられた、合計1273個の問題が含まれています。 MedMCQAは、AIIMSとNEET-PGという、インドの2つの医科大学入学試験のスタイルの、模擬試験と過去の試験問題を提供します。私たちがベンチマーク結果を報告するデータセットの「dev」サブセットは、以前の研究と一致しており、合計4183個の問題が含まれ、それぞれ4つの多肢選択式回答が付けられています。 PubMedQAには、PubMedアブストラクトから提供されたコンテキストが与えられた場合に、バイオメディカルリサーチ質問に対する「yes」、「no」、「maybe」の回答を必要とするテストが含まれています。PubMedQAテストには、「推論が必要」と「推論不要」という2つの設定があります。「推論不要」設定では、アブストラクトの説明を含む長文の回答が提供されます。私たちは、「推論が必要」設定の結果を報告します。この設定では、モデルは質問に答える際に、アブストラクトからのコンテキストのみが提供されます。このデータセットには、合計500個の問題が含まれています。 MMLUは、STEM、人文科学、社会科学を網羅した、57の異なるデータセットからなるマルチタスクベンチマークスイートです。以前の研究に従い、私たちは、臨床知識、医療遺伝学、解剖学、専門医学、大学生物学、大学医学という、医学的に関連するMMLUタスクのサブセットに対してベンチマークを行います。 セクション5.3で示されるように、私たちは、医療の課題問題に重点を置いた、GPT-4の能力に関する調査のフレームワークと研究の軌跡から拡張されています。私たちはこの手法を他のドメインに容易に適用できます。私たちは、一般化された基盤モデルを操作して専門的なアドバイスを提供するための、今後の研究を容易にするために、Medpromptの詳細を紹介します。
3.2 健全なテスト方法
プロンプトとインコンテキスト学習はモデルパラメータを変更しませんが、特定のプロンプト戦略の選択は、エンドツーエンドのテストプロセスの高レベル設定またはハイパーパラメータと見なすことができます。その結果、トレーニングとテストの一部として過剰適合に注意する必要があります。過剰適合は、考慮中のトレーニングセットとテストセットの外に一般化されない結果をもたらします。基盤モデルのパフォーマンスの研究における過剰適合に関する懸念は、従来の機械学習におけるハイパーパラメータ最適化プロセス中の過剰適合と同様の、正当な懸念です。私たちは、プロンプトエンジニアリングプロセスにおける同様の過剰適合を避けたいと考えています。
直感的には、特定のベンチマーク問題のルックアップテーブルを例として利用するプロンプトは、見ていない問題よりも、それらの問題で自然にパフォーマンスが向上します。従来の機械学習では、この問題に対処するための一般的な手法は、「テスト」セットを作成することです。テストセットは、モデル選択プロセスの最後にのみ評価されます。私たちは、機械学習研究における健全なテスト方法の重要な側面を採用し、各ベンチマークデータセットの20%をランダムに切り出して「目隠し」分割とし、最終的なテストフェーズまで完全に保持しました。つまり、目隠しデータは、最終段階まで隠されます。データは、プロンプトエンジニアリングプロセス中は調べたり、最適化したりしません。簡潔にするために、私たちは、MultiMedQAのすべてのデータセットに同じ方法を適用しました。多くのデータセットは、著者が専用のトレーニング/テスト分割で公開していませんでした。セクション5.1では、MultiMedQAデータセットにおける「目に見える」分割と「目隠し」分割におけるMedpromptの層別パフォーマンスを示します。私たちは、2つの分割間でパフォーマンスがかなり似ており、GPT-4 with Medpromptは、実際には「オープンワールド」における同様の質問に一般化されることを示唆するように、目隠しの保持データでわずかに優れたパフォーマンスを発揮していることを発見しました。私たちは、以前の研究で、同様の目隠しアプローチが使用されている証拠を見ていません。
過剰適合とは、AIが勉強しすぎて特定の問題だけに強くなりすぎること。
これだと新しい問題には弱くなるため、このリスクを避けることが大事。
例えば、勉強中に使うデータとテストに使うデータを分ける。
データの20%を「eyes-off」(見ないデータ)として最初から隠す。
このデータはAIの勉強中には使わず、最後のテストの時だけ使う。
この方法でテストしたところ、AIは「勉強中に見たデータ」と「最後のテストで初めて見たデータ」でほぼ同じくらい良い成績を出した。これは、AIが新しい問題にも強いことを示している。
4 プロンプトの力: 調査と結果
このセクションでは、Medpromptで使用される3つの主要なテクニック、動的なフューショット選択、自己生成思考の連鎖、選択シャッフルアンサンブルについて詳しく説明します。各テクニックについて説明した後、これらの3つの手法を統合されたMedpromptに構成する方法について検討します。
4.1 動的なフューショット
Few-Shot学習は、おそらく最も効果的なICL(コンテキスト内学習: In Context Learning)手法です。このプロンプトアプローチでは、基盤モデルは、ほんの数回のデモを通じて、特定のドメインにすばやく適応し、タスク形式に従うことを学習します。簡潔さと効率のために、特定のタスクのプロンプティングで適用されるフューショットの例は通常固定され、テスト例全体で変更されません。これは、選択されたフューショットの例が、テキスト例の幅広い分布に対して、広範に代表的で、関連性がある必要があることを意味します。 これらの要件を満たすための1つのアプローチは、ドメイン専門家に慎重にサンプルを作成してもらうことです。
例えば我々のような医師に、臨床的に真っ当な例を作ってもらうこと
しかし、このアプローチでは、キュレーションされた固定フューショットの例が、すべてのテスト例に対して適切に代表的であることを保証することはできません。対照的に、利用可能な場合、タスクのトレーニングセットは、フューショットの例のための安価で高品質なソースとして役立ちます。トレーニングセットが十分に大きい場合、異なるタスク入力に対して、異なるフューショットの例を選択できます。
私たちは、このアプローチを動的なフューショットの例を使用すると呼びます。この手法は、ケースと類似している例を特定するためのメカニズムを活用しています。Medpromptでは、代表的なフューショットの例を特定するために、以下の手順を実行しました。 テスト例が与えられた場合、私たちは、テキスト埋め込みtext-embedding-ada-002の埋め込み空間におけるk-NNクラスタリングを使用して、意味的に類似しているk個のトレーニング例を選択します。具体的には、私たちはまず、テキスト埋め込みada-002を使用して、トレーニング質問とテスト質問をベクトル表現として埋め込みます。 次に、各テスト質問xについて、トレーニングセットからその最も近いk個の隣接する質問x1、x2、...、xkを検索します(テキスト埋め込みada-002の埋め込み空間における距離に基づいて)。コサイン類似度などの事前定義された類似度尺度dが与えられた場合、隣接する質問は、i < jのときd(xi, x) ≤ d(xj, x)となるように順序付けられます。ファインチューニングと比較して、動的なフューショットはトレーニングデータを利用しますが、モデルパラメータの数十億回もの更新は必要ありません。 4.2 自己生成思考の連鎖
https://scrapbox.io/files/66529d15e45517001d8809c6.png
図2: 専門家作成のCoTプロンプトと、GPT-4が生成したCoTプロンプトの比較。トレーニングセットから[質問、正しい回答]のペアを使用することで、GPT-4はフューショットCoTデモに適した詳細な説明を生成できます。 CoTは、「段階的に考えてみましょう」などの自然言語ステートメントを使用して、モデルが中間的な推論ステップを明示的に生成することを奨励します。このアプローチは、基盤モデルが複雑な推論を実行する能力を大幅に向上させることが分かっています。思考の連鎖に関するほとんどのアプローチは、専門家に手動でフューショットの例を作成し、プロンプティングのために思考の連鎖を組み込むことに焦点を当てています。私たちは、人間の専門家に頼るのではなく、思考の連鎖例を自動的に作成するメカニズムを追求しました。私たちは、GPT-4に、次のプロンプトを使用して、トレーニング例の思考の連鎖を生成するように指示できることを発見しました。
https://scrapbox.io/files/66529d49a517a6001ddbc3dd.png
Figure3: 思考の連鎖の説明を自動的に生成するようにプロンプトするためのテンプレート
このアプローチにおける重要な課題は、自己生成されたCoTの根拠に、幻覚や間違った推論の連鎖が含まれている可能性があることです。私たちは、GPT-4に、根拠と、その推論の連鎖から最も可能性の高い回答を推定するように指示することで、この懸念を軽減しています。この回答が真値のラベルと一致しない場合、そのサンプルは完全に破棄されます。これは、モデルが最終的に間違った回答に達した場合、推論を信頼できないと仮定しているためです。幻覚や間違った推論が、正しい最終的な回答を依然として生成する可能性がある場合(つまり、偽陽性)、このシンプルなラベル検証ステップは、偽陰性の効果的なフィルターとして機能することが分かりました。
私たちは、[Med-PaLM 2で使用されている、臨床医が手動で作成したCoTの例と比較して、GPT-4が生成したCoTの根拠がより長く、より細かい段階的な推論ロジックを提供していることを観察しています。私たちの研究と同時に、最近の研究でも、基盤モデルは専門家よりも優れたプロンプトを作成することが分かっています。
専門家...
ちょっと悲しい。
4.3 選択シャッフルアンサンブル
他の基盤モデルよりも深刻ではありませんが、GPT-4は、多肢選択式回答における特定の選択肢を他の選択肢よりも優先する傾向を示すことがあります(選択肢の内容に関係なく)。つまり、モデルは位置バイアスを示す可能性があります。
https://scrapbox.io/files/66529eb65c0fa2001c7f3977.png
このバイアスを軽減するために、私たちは、選択肢をシャッフルしてから、多肢選択式の異なる並べ替え順序に対する回答の一貫性を確認することを提案します。その結果、私たちは、選択肢シャッフルと自己整合性プロンプティングを実行します。
選択肢をシャッフルして、多数決制にしたってことね
https://scrapbox.io/files/66529f39bd7cfc001ce5b2c1.png
Self-Consistencyは、ナイーブな単一パスまたは貪欲なデコーディングを、ある温度> 0で複数回プロンプトされたときに、さまざまな推論パスセットで置き換えます。これは、生成に一定量のランダム性をもたらす設定です。選択肢シャッフルでは、各推論パスを生成する前に、回答選択肢の相対的な順序をシャッフルします。その後、最も整合性の高い回答、つまり選択肢のシャッフルの影響を受けにくい回答を選択します。選択肢シャッフルは、温度サンプリングを超えて、各推論パスの多様性を高めるという追加の利点があり、これにより、最終的なアンサンブルの品質も向上します。また、この手法は、トレーニング例の思考の連鎖ステップを生成するためにも適用されます。各例について、選択肢を何回かシャッフルし、各バリアントに対してCoTを生成します。正しい回答を持つ例のみを保持します。 4.4 すべてをまとめる: Medprompt
https://scrapbox.io/files/66529fd3e654d6001c2ebab4.png
Medpromptは、インテリジェントなFew-Shot例選択、自己生成された思考の連鎖ステップ、多数決アンサンブルを組み合わせたもので、セクション4.1、4.2、4.3でそれぞれ詳しく説明されています。これらの手法の構成により、汎用性の高いプロンプトエンジニアリング戦略が実現します。Medprompt戦略がMedQAベンチマークで示すパフォーマンスの視覚的な説明と、各構成要素の付加的な貢献は、図4に示されています。アルゴリズムに関する対応する記述は、アルゴリズム1に提供されています。 Medpromptは、前処理フェーズと、最終的な予測がテストケースに対して生成される推論ステップの2つの段階で構成されています。
https://scrapbox.io/files/66531f41b5de50001d38fb82.png
前処理の間、トレーニングデータセット内の各質問は、軽い埋め込みモデルに渡され、埋め込みベクトルが生成されます(アルゴリズム1の4行目)。
https://scrapbox.io/files/66531e9537c01f001dad5acd.png
私たちは、OpenAIのテキスト埋め込みtext-embedding-ada-002を使用して埋め込みを作成しました。各質問について、GPT-4は、思考の連鎖と、そのCoTから最も可能性の高い回答を推定するように指示することで、この懸念を軽減しています。この回答が真値のラベルと一致しない場合、そのサンプルは完全に破棄されます。 https://scrapbox.io/files/66531f68319b0f001d46f706.png
これは、モデルが最終的に間違った回答に達した場合、推論を信頼できないと仮定しているためです。
推論時には、テスト質問が与えられると、前処理中に使用されたのと同じ埋め込みモデルを使用してテストサンプルを再埋め込みし、kNNを使用して、前処理されたプールから類似している例を検索します(アルゴリズム1の12行目と13行目)。
https://scrapbox.io/files/6653202c514315001dfdaf1c.png
これらの例とその対応するGPT-4が生成した推論の連鎖は、GPT-4のコンテキストとして構成されます(アルゴリズム1の14行目)。
その後、テスト質問とその対応する回答選択肢が最後に追加されます。これは、最終的なプロンプトとして機能します(アルゴリズム1の17行目)。
モデルは、フューショットの例に従って、思考の連鎖と候補回答を出力します。最後に、上記の手順を複数回繰り返すことで、アンサンブルプロセスを実行します。セクション4.3と図4で詳しく説明されているように、テスト質問の回答選択肢をシャッフルすることで、多様性を高めます。最終的な予測された回答を決定するために、最も頻繁な回答を選択します(アルゴリズム1の20行目)。
ここで報告されているMedpromptの結果は、5つのkNNキュレーションされたフューショット例と、選択肢シャッフルアンサンブルプロセスの一部として5つの並列API呼び出しを使用するように構成されています。これは、推論コストの最小化と精度の最大化のバランスを取る、妥当なバランスであることが分かりました。
セクション5.2で詳しく説明されているように、これらのハイパーパラメータ値を増やすことで、パフォーマンスがさらに向上する可能性があります。たとえば、フューショット例を20個に増やし、アンサンブルステップを11個に増やすことで、MedQAでさらに+0.4%のパフォーマンスが向上し、90.6%という新しい最先端のパフォーマンスしきい値が設定されます。
私たちは、Medpromptが医療ベンチマークデータセットで記録的なパフォーマンスを達成していますが、このアルゴリズムは汎用性が高く、医療ドメインや多肢選択式質問応答に限定されません。私たちは、知的なFew-Shotの例示選択、自己生成された思考過程の推論ステップ、そして多数決によるアンサンブリングを組み合わせるという一般的なパラダイムが、他の問題領域にも広く適用できると考えています。これには、より制約の少ない問題解決タスクも含まれます(このフレームワークを選択肢問題以外に拡張する方法の詳細については、セクション5.3を参照してください)。 5 結果
表1: MultiMedQAの多肢選択式コンポーネントにおける、さまざまな基盤モデルのパフォーマンス。Medpromptを使用したGPT-4は、すべてのベンチマークで他のすべてのモデルを上回ります。 https://scrapbox.io/files/665322958a31d7001d9e6845.png
5.1 目隠しデータにおけるパフォーマンス
https://scrapbox.io/files/665337f7174be6001d5c67a3.png
図5: 20%の目隠しホールドアウトに対するMedpromptの評価。Medpromptは、ほとんどの場合、目隠しデータセットでより優れたパフォーマンスを発揮します。
セクション5.1で紹介したように、私たちは、過剰適合のリスクをチェックするために、各ベンチマークデータセットの保持された「目隠し」サブセットで、Medpromptプロンプト設計を評価しました。Medpromptを使用したGPT-4は、目に見えるデータで平均90.6%、目隠しデータで平均91.3%のパフォーマンスを達成しました。これは、プロンプトエンジニアリングプロセスが、MultiMedQAデータセットで過剰適合を引き起こしていない可能性を示唆しています。さらなる証拠として、目隠しデータにおけるパフォーマンスは、ベンチマークデータセットの6/9で向上しました(図5)。
https://scrapbox.io/files/665338155f549f001c06a855.png
図6: アブレーション研究による、Medpromptのさまざまな構成要素の相対的な貢献の特定。
図6は、MedQAデータセットで行われたアブレーション研究の結果を示しており、Medpromptの各テクニックの相対的な貢献を理解しようとしています。青いバーは、Medprompt手法のベースラインを確立しています。次に、私たちは各テクニックを順番に重ねていき、各増分変更によるパフォーマンスの相対的な差を測定しました。セクション4.4で概説されているように、私たちのベースMedprompt戦略は、5つのkNNキュレーションされたフューショット例を使用し、5つのAPI呼び出しをアンサンブルします。また、最大20個のフューショット例と最大11個のアンサンブルステップを設定して実験を行いました。
パフォーマンスは、フューショット例を追加し、アンサンブルステップを増やすことで、わずかに90.6%まで向上することが分かりました。これは、推論時間の増加と複雑さによって、ベンチマークがさらに改善される可能性があることを示唆しています。セクション4で説明されているように、思考の連鎖ステップの導入は、パフォーマンスに最も貢献しました(+3.4%)、次いでフューショットプロンプティングと選択肢シャッフルアンサンブルが続きました(それぞれ+2.2%)。
私たちが使用しているテクニックは、統計的に独立していないため、各手法の貢献をテストする順番は重要です。このアブレーション研究における順番の選択は主観的なものであり、導入された手法の相対的な複雑さに基づいています。アブレーション研究におけるクレジット割り当てのためのより理論的に堅実な手法は、ゲーム理論的なシャープレイ値の計算を含みます。これは、考えられるすべての順序の排列をテストするために、指数関数的に多くのモデル評価が必要です。これは今後の課題として残しており、読者には、アブレーション研究における特定の数値を、相対的な貢献の妥当な近似値と見なすように促します。
増分変更の積み重ねとは別に、私たちは、Med-PaLM 2で使用されている専門家作成の思考の連鎖(CoT)プロンプトと、GPT-4が自動的に生成したCoTプロンプト(セクション4.2)を比較します。私たちは、GPT-4を両方のプロンプトを使用して評価し、固定された5ショットの例を使用し、アンサンブルは使用しません。表2は、MedQAデータセットにおけるそれらの精度を報告しています。
https://scrapbox.io/files/66533985077020001dee1f7e.png
GPT-4が自己生成したCoTは、専門家作成のCoTよりも3.1ポイント優れています。私たちは、Med-PaLM 2で使用されている専門家作成のCoTと比較して、GPT-4が生成したCoTの根拠がより長く、より細かい段階的な推論ロジックを提供していることに気づきました。考えられる説明の1つは、GPT-4が生成したCoTは、モデル自身の強みと弱みにより適している可能性があり、専門家作成のCoTと比較して、パフォーマンスが向上する可能性があることです。考えられるもう1つの説明は、専門家作成のCoTには、MedQAデータセット内のすべての質問に対して当てはまらない暗黙のバイアスや仮定が含まれている可能性がある一方で、GPT-4が生成したCoTは、さまざまな質問に対してより中立的で一般化できる可能性があるということです。
5.3 一般化: Medpromptのドメイン横断的な調査
私たちは、動的なフューショット選択、自己生成思考の連鎖、選択肢シャッフルアンサンブルを組み合わせたMedpromptで使用されるプロンプトエンジニアリング手法の組み合わせは、汎用性があると主張しています。これらの手法は、MultiMedQAベンチマークデータセットに合わせて特別に調整されていません。これを検証するために、私たちは、電気工学、機械学習、哲学、専門会計、専門法律、専門心理学という、6つの追加の、さまざまなMMLUベンチマークスイートのデータセットで、最終的なMedprompt手法をさらにテストしました。また、米国で登録看護師として勤務するために必要な試験である、NCLEX(医師国家試験)スタイルの質問に答える2つの追加データセットも取得しました。 https://scrapbox.io/files/6653dcabd4b329001d0aebb8.png
図7は、これらのさまざまな、ドメイン外データセットにおける、Medprompt、ゼロショットプロンプト、5ショットプロンプト(ランダムサンプル選択あり)を使用したGPT-4のパフォーマンスを示しています。これらのデータセット全体で、Medpromptは、ベースラインのゼロショットプロンプティングと比べて平均+7.3%の改善を示しています。対照的に、Medpromptは、本稿で調査されたMultiMedQAデータセットで、同じゼロショットベースラインと比べて+7.1%の改善を示しました。私たちは、さまざまな分布のデータセット全体で改善が類似していることは、Medpromptアプローチの汎用性を示していることを強調しています。
確かに、そう言えるかもしれない。Medpromptの手法、医療に合わせたわけじゃないから。
(動的Fewshot, 自己生成CoT, 選択肢シャッフルアンサンブリング)
本稿の範囲外ではありますが、私たちは、MedPromptの基礎となる一般的なフレームワーク、つまりフューショット学習と思考の連鎖推論をアンサンブル層でまとめたものが、わずかなアルゴリズムの変更によって、多肢選択式質問/回答設定を超えてさらに一般化できることを信じています。たとえば、オープンテキスト生成の設定では、アンサンブル層は直接多数決に頼ることができないため、埋め込み空間における他のすべての回答に最も近い回答を選択することで集約される可能性があります。もう1つのオプションは、生成されたK個のテキストを構造化された形式で連結し、モデルに最も可能性の高いオプションを選択するように指示することです。これは、アンサンブルリファインメントのスタイルです。私たちは、他の設定へのアルゴリズムの変更の空間を探求することを、今後の課題として残しています。
6 制限とリスク
私たちの論文では、医療の課題におけるGPT-4の専門的能力を増幅させるために、一般的な基盤モデルを制御する体系的なプロンプトエンジニアリングの力を強調しています。ここで、我々の評価から得られた限界と将来の方向性についての考察を共有します。
基盤モデルは大規模なインターネット規模のデータセットで訓練されるため、ベンチマーク問題での強力なパフォーマンスは、モデルが訓練中に以前に直接テストサンプルを観察したことによる記憶または漏洩効果に起因する可能性があります。我々の前の研究では、この作業で基本的なプロンプトを使用してGPT-4のパフォーマンスを評価しました。そこで、記憶の証拠を発見できなかったブラックボックステストアルゴリズム(MELD)を導入し実行しました。しかし、MELDのようなブラックボックステストアプローチでは、データが以前に見られたことがないことを保証することはできません。また、我々は別途、一般公開されていない有料のUSMLE問題に対するGPT-4のパフォーマンスも評価し、同様に強力なパフォーマンスを確認しました。この研究では、プロンプトエンジニアリングプロセス中に過剰適合や漏洩を制御するために標準的な機械学習のベストプラクティスを採用しました(セクション5.1)。しかし、訓練中のベンチマーク汚染に関する懸念は依然として残っています。
さらに、Medpromptを用いたGPT-4の強力なパフォーマンスは、モデルと手法の実世界でのヘルスケアタスクに対する効果を示すものではないことに留意してください。基盤モデルをベンチマーク上でトップの専門家に導く能力に興奮していますが、プロンプト戦略とモデル出力のパフォーマンスが、実世界での医療実践、例えば自動化や医療専門家の支援、臨床決定支援、患者との関わりにおいて価値があることを意味するものではないことに注意が必要です。
これな。
わいもそんなに信じてないよ。
国試レベルの医療問題と、実臨床は天と地ほど違いがあるから。
明確に言えば、私たちや他の人々が研究している医療課題は、選択された分野における人間の能力をテストするために設計されています。このような能力テストは通常、複数選択式の質問セットとして構成されています。このような課題は一般的な評価方法であり、多様なトピックをカバーしていますが、医療専門家が実際の実践で直面する医療タスクの範囲と複雑さを捉えていません。
その通り
したがって、実世界の能力の代替としてのテストの追求と、複数選択式の回答に焦点を当てることは、専門的ベンチマークでの強力なパフォーマンスを実世界のパフォーマンスに移行する際の制限となります。さらに、MedPrompt戦略は非複数選択式の設定にも適応できると信じていますが、本研究ではこれらの提案された適応をベンチマークで明示的にテストしませんでした。
基盤モデルは誤った情報(時には幻覚と呼ばれる)を生成する可能性があり、生成物やアドバイスを損なう可能性があることも留意すべきです。プロンプト戦略の改善により幻覚の減少と全体的な精度の向上が期待できますが、残る幻覚をさらに検出しにくくする可能性もあります。有望な方向性としては、生成物の確率的キャリブレーション、出力に対する信頼できる信頼度の提供が含まれます。我々の以前の研究では、GPT-4が適切にキャリブレーションされ、複数選択テストの質問に対する信頼できる信頼度の測定を提供できることがわかりました。
基盤モデルの出力におけるバイアスにも注意を払う必要があります。トップレベルのパフォーマンスを追求する最適化が、公平なパフォーマンスなどの他の目標にどのように影響するかはまだ理解されていません。全体的な精度の追求と異なるサブポピュレーション間での公平なパフォーマンスのバランスを取ることは、医療における既存の格差を悪化させないためにも重要です。以前の研究では、AIシステムにおけるバイアスを理解し対処する必要性が強調されています。バイアスと公正性の課題は、モデルの最適化、ファインチューニング、およびプロンプトエンジニアリングの文脈において依然として関連性があり、緊急の課題です。
7 まとめと結論
本研究では、GPT-4の医療課題におけるトップパフォーマンスの専門的能力を引き出すためのプロンプトの力を、特別なファインチューニングやプロンプト構築のための専門家の知識に依存せずに解明しました。モデルの能力を評価する際のベストプラクティス、特に目視によらないデータセットでの評価の重要性を共有しました。プロンプト戦略の一群をレビューし、それらが体系的な探査を通じてどのように研究および組み合わせられるかを示しました。高度で効率的なプロンプト戦略を用いてGPT-4を制御することで、専門家のパフォーマンスを向上させるための大きな余地があることが分かりました。
GPT-4を医療課題で制御するために最も効果的なプロンプト戦略であるMedpromptの構成を説明しました。Medpromptが、専門医療データを用いたファインチューニングと専門医による手作りのプロンプトによって構築された専門家モデルであるMed-PaLM 2を含む、全ての標準的な医療質問応答データセットで既存のチャートを容易に上回ることを示しました。MedpromptはMedQAにおける専門技術を解放し、これまでのベンチマークで初めて90%を超える精度の大幅な向上を達成しました。
探査中に、GPT-4が手作りの専門家プロンプトを上回るカスタムテーラードされたCoTのセットを作成するタスクに適していることを発見しました。Medprompt戦略の各コンポーネントの個別の寄与についての洞察を追求し、それぞれの相対的重要性を示すアブレーションスタディを通じて研究しました。過剰適合を避けるために目視によらない評価ケースライブラリを設け、
Medpromptの強力な結果が過剰適合によるものではないことを確認しました。医療以外の6つの分野(電気工学、機械学習、哲学、会計学、法律、看護学、臨床心理学)の能力評価セットでのパフォーマンス研究を通じて、Medpromptの一般性を探求しました。これらの異なる分野での発見は、Medpromptおよびその派生物が多くの分野で基盤モデルの専門能力を解放するために価値があることを示唆しています。特に、一般的なMedPrompt戦略を非複数選択式の質問に適応させることにより、基盤モデルから専門能力を引き出すためのプロンプトの精緻化のさらなる可能性を見出しています。例えば、GPT-4を用いて強力なチェインオブソートの例を作成し、それをプロンプトに使用するMedprompt戦略を基に構築する機会があると考えています。今後の研究方向としては、基盤モデルが少数ショットの例を反映し作成する能力をさらに調査し、これらをプロンプトに織り込むことが含まれます。
我々の調査は一般的なモデルのプロンプトの力を探ることに焦点を当てていますが、ファインチューニングや基盤モデルにパラメトリック更新を行う他の方法も重要な研究経路であり、プロンプトエンジニアリングに相乗効果をもたらす可能性があると考えています。我々は、基盤モデルの潜在能力を医療のような高リスクの領域で解放するために、両方のアプローチを慎重に探るべきだと主張します。