GUIエージェントの評価
「環境」と「データセット」を明確に区別
データセット
各データポイントが
複数の入力特徴(例:質問、環境のスクリーンショット、現在の状態など)
出力特徴(例:正しい回答や実行すべき操作)から構成された
静的なデータの集合
評価プロセス全体を通じてデータセット自体は変化しません。
環境
実際のシナリオを模した対話型のシミュレーションを指します。
GUI環境は、モバイルやデスクトップのGUIインターフェースそのものを含み
環境内での操作が状態を変化させるため
問題をマルコフ決定過程(MDP)や部分観測マルコフ決定過程(POMDP)としてモデル化できるよう
定義された行動、状態、観測の空間や状態遷移関数を持ちます。
既存のGUIエージェントのベンチマークでは、クローズドワールドとオープンワールドという前提の違いも重要な次元
クローズドワールド
オープンワールド
GUIエージェントの評価指標
タスク完遂の評価
目標状態での停止
結果の一致
サブタスクの完遂
自動判断
ターンごとの成功率
昼間ステップの評価
URLの一致や要素の一致
効率、一般、安全
タスクに要する時間や計算リソース
組み合わせタスクの適応力