推論タスクをプロンプトエンジニアリングでどう評価するか?
推論タスクには、数学推論/常識推論/記号推論の3つがある。
それぞれプロンプトエンジニアリングで、1つずつ検証する場合は、以下のリンク先の準備をすれば良い。
数学推論タスクをどう評価するか?
常識推論タスクをどう評価するか?
記号推論タスクをどう評価するか?
一方で現実的には、どれか一つだけの推論能力を見たいというケースは少ない。
3ついっぺんに評価したいというニーズがある。
しかしデータ量が大変で、コスト(API費用、時間)が心配
そこで、それぞれの推論タスク問題から、5-10問ずつピックアップして統合したデータを作成した
https://github.com/hiroyaiizuka/japansese-reasoning-datasets
データセットに何を使うべきか?
3種類の難易度別のデータセット
test1.json (難易度⭐️)
test2.json (難易度⭐️⭐️)
test3.json (難易度⭐️⭐️⭐️)
=> test3.jsonを使うことをお勧めする。
理由は、API費用削減と、正解率向上のupperが大きく、効果判定がしやすいこと
その他のアプローチとしてマルチホップ推論という、とても難しい推論タスクを解かせるのもあり
MuSiQue
StrategyQA
プロンプトに何を使うべきか?
① 推論タスクの性能向上した論文報告がある単独のプロンプト
Role-Play Prompt
Meta Cognitive Prompt
EmotionPrompt
Take a Step Back
② 併用が効果的という論文報告があるプロンプトの組み合わせ
ステップバイステップより精度が高いテクニック
Take a Deep Breathe + Zero-Shot CoT
Rephrase and Respond (RaR) + Zero-Shot CoT
Re-Reading * Zero-Shot CoT
Re-Reading + Plan and Solve
未知なる挑戦
①を複数組み合わせる
②に①を組み合わせる