WebShop
https://scrapbox.io/files/65c4f27ddbb3e000262fd8eb.png
WebShopは、118万点の実世界の商品と12,087点のクラウドソースによるテキスト指示からなる模擬電子商取引ウェブサイト環境
この環境では、エージェントは複数の種類のウェブページをナビゲートし、指示された商品を見つけ、カスタマイズし、購入するために多様なアクションを実行する必要がある。
WebShopは、構成された指示の理解、クエリの(再)定式化、ウェブページ内のノイズの多いテキストの扱い、戦略的探索の実行など、いくつかの課題を提供する。
インタラクティブな環境における言語の基礎となる既存のベンチマークのほとんどは、現実的な言語的要素を欠いているか、データの収集やフィードバック信号の収集に人間が大きく関与するため、スケールアップが困難であることが判明している。我々は、118万点の実際の商品と12,087点のクラウドソースによるテキスト指示を持つ模擬電子商取引ウェブサイト環境であるWebShopを開発した。この環境では、エージェントは複数の種類のウェブページをナビゲートし、指示された商品を見つけ、カスタマイズし、購入するために多様なアクションを実行する必要がある。WebShopは、構成的な指示の理解、クエリの(再)定式化、ウェブページ内のノイズの多いテキストの扱い、戦略的探索の実行など、いくつかの課題を提供する。我々は、まずベンチマークを検証するために1,600以上の人間の軌跡を収集し、次に強化学習、模倣学習、および事前に訓練された画像モデルと言語モデルを用いて、多様なエージェントを訓練し評価する。我々の最良のモデルは29%のタスク成功率を達成し、ルールヒューリスティックを大きく上回るが、熟練した人間のパフォーマンス(59%)よりはるかに低い。また、エージェントと人間の軌跡を分析し、より強力な言語理解と意思決定能力を持つ将来のエージェントを開発するための洞察を提供するために、様々なモデルコンポーネントを切除する。最後に、WebShopで訓練されたエージェントは、amazon.comとebay.comで評価されたとき、自明でないシム-トゥ-リアル転送を示し、野生で動作する実用的なウェブエージェントを開発するための我々のベンチマークの潜在的価値を示す。