推論タスクをプロンプトエンジニアリングでどう評価するか?
推論タスクには、数学推論/常識推論/記号推論の3つがある。
それぞれプロンプトエンジニアリングで、1つずつ検証する場合は、以下のリンク先の準備をすれば良い。
一方で現実的には、どれか一つだけの推論能力を見たいというケースは少ない。
3ついっぺんに評価したいというニーズがある。
しかしデータ量が大変で、コスト(API費用、時間)が心配
そこで、それぞれの推論タスク問題から、5-10問ずつピックアップして統合したデータを作成した
データセットに何を使うべきか?
3種類の難易度別のデータセット
test1.json (難易度⭐️)
test2.json (難易度⭐️⭐️)
test3.json (難易度⭐️⭐️⭐️)
=> test3.jsonを使うことをお勧めする。
理由は、API費用削減と、正解率向上のupperが大きく、効果判定がしやすいこと
その他のアプローチとしてマルチホップ推論という、とても難しい推論タスクを解かせるのもあり プロンプトに何を使うべきか?
① 推論タスクの性能向上した論文報告がある単独のプロンプト
② 併用が効果的という論文報告があるプロンプトの組み合わせ
未知なる挑戦
①を複数組み合わせる
②に①を組み合わせる