推論タスクをプロンプトエンジニアリングでどう評価するか？ - evergreens

推論タスクをプロンプトエンジニアリングでどう評価するか？

推論タスクには、数学推論/常識推論/記号推論の3つがある。

それぞれプロンプトエンジニアリングで、1つずつ検証する場合は、以下のリンク先の準備をすれば良い。

数学推論タスクをどう評価するか？

常識推論タスクをどう評価するか？

記号推論タスクをどう評価するか？

一方で現実的には、どれか一つだけの推論能力を見たいというケースは少ない。

3ついっぺんに評価したいというニーズがある。

しかしデータ量が大変で、コスト(API費用、時間)が心配

そこで、それぞれの推論タスク問題から、5-10問ずつピックアップして統合したデータを作成した

https://github.com/hiroyaiizuka/japansese-reasoning-datasets

データセットに何を使うべきか？

3種類の難易度別のデータセット

test1.json (難易度⭐️)

test2.json (難易度⭐️⭐️)

test3.json (難易度⭐️⭐️⭐️)

＝＞ test3.jsonを使うことをお勧めする。

理由は、API費用削減と、正解率向上のupperが大きく、効果判定がしやすいこと

その他のアプローチとしてマルチホップ推論という、とても難しい推論タスクを解かせるのもあり

プロンプトに何を使うべきか？

① 推論タスクの性能向上した論文報告がある単独のプロンプト

Role-Play Prompt

Meta Cognitive Prompt

Take a Step Back

② 併用が効果的という論文報告があるプロンプトの組み合わせ

ステップバイステップより精度が高いテクニック

Take a Deep Breathe + Zero-Shot CoT

Rephrase and Respond (RaR) + Zero-Shot CoT

Re-Reading * Zero-Shot CoT

Re-Reading + Plan and Solve

未知なる挑戦

①を複数組み合わせる

②に①を組み合わせる