OpenAIとGoogleの発表がもたらした、AI開発のベストプラクティスの変化
ポイント
AI開発者のベストプラクティスが変わってきた
それによって、メガプロンプトを処理できるようになった
https://scrapbox.io/files/664d88176156d1001dbf73fa.png
プロンプト戦略は以下の通り
ダメなら、詳細にしていく。時にメガプロンプトになることも
感じたこと
https://scrapbox.io/files/664d89b9b5fbf7001cc066bb.png
しっかり読みます。
概要
GPT-4oはトークンの生成速度が2倍速く、GPT-4 Turboより50%安価で、マルチモーダルトークンをネイティブに受け入れ、生成します。私(Andrew Ng)はこれらの開発を、過去18か月のトレンドの最新のものとして見ています。これまでの改善を踏まえると、開発者のベストプラクティスも変化しています。 (i) 推論、これはLLMが複雑な概念を考え抜き、複雑な指示に従うことを可能にします。
GPT-4や他の先進的なモデルの推論能力は、詳細な指示を含む複雑なプロンプトを解釈するのに非常に優れています。多くの人は、LLMに対して短い1〜2文のクエリを送信することに慣れていますが、アプリケーションを構築する際には、洗練されたチームが頻繁に1〜2ページにわたるプロンプト(私たちのチームはこれを「メガプロンプト」と呼びます)を書き、LLMがタスクをどのように実行すべきかを詳細に指定しています。それでもなお、詳細な指示を書くことに十分に取り組んでいないチームも見受けられます。中程度の長さのプロンプトの例としては、Claude 3のシステムプロンプトをご覧ください。
https://scrapbox.io/files/664d87a7751dfb001cf12018.png
これは詳細で、Claudeがどのように振る舞うべきかについて明確な指針を示しています。
https://scrapbox.io/files/664d88176156d1001dbf73fa.png
これは、通常LLMのウェブユーザーインターフェースで使用するプロンプトのスタイルとは大きく異なります。そこで私たちは短いクエリを送信し、応答が不十分であればチャットボットとの会話を繰り返して望む結果を明確にします。
しかし、より長い入力コンテキストウィンドウ(GPT-4oは128,000トークン、Claude 3 Opusは200,000トークン、Gemini 1.5 Proは100万トークン(限定プレビューで200万トークンに増加発表))により、LLMは少数の例に限定されません。多ショット学習では、開発者はプロンプトに数十、さらには数百の例を提供でき、これは少数ショット学習よりも効果的です。
複雑なワークフローを構築する際、次のプロセスで良い結果が得られることを確認しています:
- 1. 短くて簡単なプロンプトを書き、それがどのように機能するかを確認する。
- 2. 出力が不十分な部分に基づいて、プロンプトを反復的に充実させる。これにより、長くて詳細なプロンプト、場合によってはメガプロンプトになることがよくあります。
段階的にプロンプトを複雑にする戦略
従来、OpenAIのベストプラクティスでは、上3つまでしかなかった。
https://scrapbox.io/files/664d908fbee866001d80327c.png
面白いじゃんか。
このようなプロセスが、アプリケーションの構築をより容易にすることを願っています。プロンプト戦略に関する詳細な情報に興味がある場合は、非常に優れた結果をもたらす複雑なプロンプト戦略をまとめたMedprompt論文をお勧めします。 参考