InfiAgent-Dabench
https://scrapbox.io/files/6698d5ed57f01a001d2b106e.png
データ分析タスクにおけるエージェントの評価を目的としたベンチマーク。
LLMベースのエージェントは、データ解析の質問と対応するCSVファイルを要求される。
エージェントは計画を立て、コードを書き、Pythonサンドボックスを呼び出し、ReActの方法で問題を解決します。 最終的な解答は特定のフォーマットに再フォーマットされ、閉形式のラベルと照合される。
DAEvalの構築
https://scrapbox.io/files/6698d73b69ca3c001d42ebe3.png
データ分析問題は、CSVファイルの記述と事前に定義されたキーコンセプトに基づいてGPT-4で生成される。
そして、正確な評価のために質問を閉形式にするための制約条件とフォーマット要件を生成する。
これらはすべて、人間による厳密な評価とフィルタリングを受けている。
論文