NeurIPS 2022: MineRL BASALT Competition
🕵️ Introduction
MineRL Benchmark for Agents that Solve Almost-Lifelike Tasks (MineRL BASALT) コンペティションの目的は、人間のフィードバックから学習し、明確で簡単に定義できる報酬関数なしにタスクを達成するエージェントを実現する研究を促進することです。スポンサーからは、この研究を支援するために、2万米ドル(条件付きで5万~10万米ドル)の賞金が提供されました。
このコンペティションは2回目の開催となります。BASALT 2021のコンペティションのページはこちらです。
今年の主な変更点は以下の通りです。
⚒️ 人間レベルの観察・行動空間を持つ新しいMineRLシミュレータバージョン。この変更により、例えば、クラフトを行うには、インベントリUIを開き、マウスを使ってアイテムをクラフトする必要があります。
🧠 異なる Minecraft タスクで訓練された事前訓練済みモデルで、あなたのソリューションで自由に使用できます(例:特定のタスク用に微調整する、行動の特定の部分に使用する)。
🏆 たとえソリューションがトップパフォーマンスに達しなかったとしても、人間のフィードバックから学ぶことを奨励する賞品。
💎「イントロ」トラックでは、制限のないオリジナルのMineRLコンペティションタスク(例:ObtainDiamond)を使用し、コンペへの参加を容易にする。
❓タスクとモチベーション
実世界のタスクは、報酬関数が明確に定義された状態で単純に渡されるわけではなく、何をやって欲しいかを口頭で説明できたとしても、それを設計するのは困難な場合が多い ---。このような状況を反映し、BASALTのコンペティション環境には報酬関数が含まれていません。私たちは、このワークフローがより遅く、より複雑であることを理解していますが、AIシステムが効果的かつ安全に実世界に影響を与えることを望むなら、この設定が必要であると考えています。BASALT 2021のコンペティションの動機は、こちらでご覧いただけます。
報酬ないのすばらしいyosider.icon
以下の動機付けとなる、修辞的な質問について熟考してください🤔。
あなたは、報酬を使ってマインクラフトで素敵な滝を構築するためにAIを訓練したいと思います。あなたはいつエージェントに肯定的な報酬を与えるのでしょうか?
あなたは、現実と同じように、マインクラフトの町で家を建てている間、他の人の邪魔をしない(または悲しませない)家を建てるAIが欲しいと思っています。家を建てている間、AIは何種類の方法で街に(あるいは他のプレイヤーの楽しみを)害することができるでしょうか?これらの害を報酬機能でどのように信号化するのでしょうか?
家といえば、その「良さ」を測るために、どのような指標を家に割り当てるのでしょうか?あるAIが他のAIより家を建てるのがうまいかどうかを、どうやって「測る」のでしょうか?
では、こう考えてみてください。誰かが滝を作ったか、家を作ったか、わかりますか?ある家が他の家より優れているかどうか分かりますか?もしそうだとしたら、この知識をどうやってAIに移せばいいのでしょうか?一つの答えがあります。それは、人間のフィードバックから学ぶことです。報酬関数の代わりに、実演、好み(「行動AはBより優れている」)、修正によってエージェントを訓練するのです。この方法の詳細とポインタについては、「はじめに」セクションを参照してください。
この方向性を後押しするために、4つのタスクを人間が読みやすい記述で定義しています。これらの説明を受けながら、解決策を設計していきます。提出されたビデオを評価する人間もまた、この説明を受け取り、彼らの評価に役立てます。詳しくは「評価」の項をご覧ください。
🖊 評価について
この競技は、生成された軌跡に対する人間の評価によって判定される。具体的には、各タスクについて、2つの異なるエージェントが環境内で行動する動画を生成し、どちらのエージェントがそのタスクをよりよく実行したかを人間に質問します。このような比較対照を多数集めた後、TrueSkill システムを使用して各エージェントのスコアを作成します。これは、非常に大まかに言えば、真っ向から比較した場合に、エージェントが「勝つ」可能性がどの程度あるかをとらえたものです。最終的なスコアは、4つのタスクすべての平均、正規化されたスコアとなります(つまり、4つのタスクは最終ランキングで同じ重みを持ちます)。 コンペティションの間、オンラインのリーダーボードは、提出されたソリューションに対して即座にフィードバックを与えるために自動的な指標を使用しますが、提出されたソリューションのランキングに使用された最終スコアは反映されません。このことを念頭に置いて、ソリューションの開発および評価を行ってください。
評価は、投稿終了後、3つのステップで行われます。最新の応募作品が、これらの評価に使用されます。
フェーズ 1: 最大 50 件の応募が、上位 20 件を決定するための短期間の評価に含まれます。応募数が50件を超える場合、主催者はより早い段階で評価ラウンドを設定し、応募数を50件に制限します。
フェーズ2: 上位20作品について、より詳細な評価を行い(1作品あたりの評価回数を増やす)、応募作品の順番を決定します。上位10作品は審査に移ります。
検証: 主催者は、上位10作品のソースコードを検査し、ルールに準拠していることを確認します。また、提出物は、トレーニング中にルールが破られなかったことを確認するために再トレーニングされます(主に:限られた計算とトレーニング時間)'.
再トレーニングされたエージェントの挙動が著しく異なる場合、我々はチームに連絡し、ルール違反がなかったと仮定して、問題を解決することを目指します。
受賞者の決定 検証を通過した上位の提出物は、受賞者として発表されます。これには、トップパフォーマンスのソリューション(例:タスクで良い結果を得る)、および推奨されるメソッドのいずれかに特化したソリューションが含まれます(詳細は賞を参照)。
📊 データセット
コンペティションのために、各タスクのデモの新しいデータセットを提供することを目指します。
💪 Getting Started
Start with the following resources:
Install MineRL v1.0 and explore the BASALT environments (these are the tasks you aim to solve!)
Explore and study the pretrained models; you are free to use them as part of your submission however you like, and we encourage to do so!
Here are some previous projects that could help you get started!
Check out the winners of the MineRL Diamond competition -- while the BASALT tasks are different, there is still much to learn from approaches to Diamond. 2019, 2020 and 2021 submissions
Top teams talks from 2019
See our list of projects using MineRL here (and please email us to add more to the list!)
Academic papers related to learning from human-feedback
Familiarize yourself with the MineRL package and dataset.
Read the docs
Download and explore the older data! While this is not used for this competition, it will give you a sense of what you will be working with.
Join the Discord community!
Participate in research discussions on different approaches to solving the challenge
Form teams early
📜 Rules (draft, subject to updates)
A full, detailed set of rules will be shared later. here is an outline (not the final rules!):
You cannot pull information out of the underlying Minecraft simulator; only information provided in the interfaces of the environments we give is allowed.
Submissions are limited to four days of compute on prespecified computing hardware to train models for all of the task. Hardware specifications will be shared later.
If you train using in-the-loop human feedback, you are limited to 10 hours of human feedback over the course of training all four models. The interface for providing feedback must be exposed by your code in a way that a person fluent in English can understand how to provide the feedback your algorithm requires, either through a GUI or a command-line interface, after reading a Google Doc you submit containing at most 10 pages. This is necessary for retraining, since we will have to replicate both the computation of your algorithm and its requests for human feedback.
During retraining, while we aim to get human feedback to you as soon as possible, your program may have to wait for a few hours for human feedback to be available. (This will not count against the four day compute budget, though you are allowed to continue background computation during this time.)
Human feedback will be provided by remote contractors, so your code should be resilient to network delays. (In particular, contractors may find it particularly challenging to play Minecraft well over this connection.)
You are permitted to ask for human feedback in separate batches (e.g. every hour or so, you ask for 10 minutes of human feedback).
💵 Prizes
Thanks to the overwhelming generosity of our sponsors, there will be 20,000 USD worth of cash prizes with an additional 50,000–100,000 USD conditional prize! Details will be provided before the competition start, but here are the main points.
Details on the traditional prizes will be included at the competition start. They will include the traditional "top-team" prizes, but to encourage deeper exploration of different methods, we will also aim to provide specialized prizes for solutions that use methods we wish to encourage (e.g., human-feedback learning). The conditional prize of 50,000–100,000 USD will be provided to a solution (or split between multiple solutions if many reach it) that reaches a "considerable milestone" during this competition (e.g., something that would be jaw-dropping).
📅 Timeline
June-July: Materials shared: new MineRL, pretrained models and baseline code.
1st of July: Competition begins! Participants are invited to start submitting their solutions.
October: Submission deadline. Submissions are closed and organizers begin the evaluation process.
November: Winners are announced and are invited to contribute to the competition writeup.
2nd-3rd of December: Presentation at NeurIPS 2021.
2022?
🙋 F.A.Q.
THIS F.A.Q IS THE ONLY OFFICIAL PLACE FOR CLARIFICATION OF COMPETITION RULES!
Q: Will you be releasing your setup for collecting demonstrations?
> A: Unfortunately not -- our setup is fairly complex and not fit for public release. However, along with our baseline solutions, we will provide you with a number of tools to help you create your submissions. One of these is a tool for you to record your own Minecraft gameplay in the same environments where the agent plays in.
Q: Will you re-run my training code?
> A: Eventually, but only for the top solutions coming out of Phase 2. We require you to always submit your training code along with your submission. For the evaluations we will use the models you uploaded along your submission. We perform retraining to ensure the training script you provide roughly produces the behaviour of the model you submit.
Q: What does “Minecraft internal state” (that participants aren't allowed to use) refer to?
It refers to hardcoded aspects of world state like “how far am I from a tree” and “what blocks are in a 360 degree radius around me”; things that either would not be available from the agent’s perspective, or that an agent would normally have to infer from data in a real environment, since the real world doesn’t have hardcoded state available.
Have more questions? Ask in Discord or on the Forum!