Retrospective on the 2021 BASALT Competition on Learning from Human Feedback

NeurIPS 2021: MineRL BASALT Competition

第35回神経情報処理システム会議(NeurIPS 2021)において、初のMineRL Benchmark for Agents that Solve Almost-Lifelike Tasks (MineRL BASALT) Competitionを開催しました。このコンペティションの目的は、learning from human feedback（LfHF）技術を使用してオープンワールドのタスクを解決するエージェントに向けた研究を促進することでした。LfHF技術の使用を義務付けるのではなく、ビデオゲーム「マインクラフト」内で達成すべき4つのタスクを自然言語で記述し、参加者が好きなアプローチでタスクを達成するエージェントを構築できるようにしました。各チームは、想定される様々なタイプの人間のフィードバックに対して、多様なLfHFアルゴリズムを開発しました。優勝した3チームは、大きく異なるアプローチを実装しながら、同様のパフォーマンスを達成しました。興味深いことに、それぞれのアプローチは異なるタスクで優れた性能を発揮し、コンペティションに含めるタスクの選択が妥当であったと言えます。しかし、姉妹大会であるMineRL Diamondと比較すると、参加者数、応募数ともに劣る結果となりました。この問題の原因について考察し、今後のコンペティションの改善策を提案する。

Rohin Shah, Steven H. Wang, Cody Wild, Stephanie Milani, Anssi Kanervisto, Vinicius G. Goecks, Nicholas Waytowich, David Watkins-Valls, Bharat Prakash, Edmund Mills, Divyansh Garg, Alexander Fries, Alexandra Souly, Chan Jun Shern, Daniel del Castillo, Tom Lieberum

Submitted on 14 Apr 2022

https://arxiv.org/abs/2204.07123