Learning Agile Soccer Skills for a Bipedal Robot with Deep Reinforcement Learning

https://youtu.be/chMwFy6kXhs

我々は、低コストで小型のヒューマノイドハードウェアに深層強化学習（Deep Reinforcement Learning: Deep RL）を適用し、動的環境における1対1（1vs1）サッカーゲームにおいて、複雑な行動戦略を構成する高度かつ安全な動作スキルを合成できることを示しました。

20個の関節を持つエージェントは、MuJoCo物理エンジンを用いてシミュレーションで訓練され、実際のロボットにゼロショットで転送されました。エージェントは、proprioceptionとゲーム状態の特徴を観察として使用します。訓練されたサッカー選手は、迅速な転倒回復、歩行、旋回、キックなど、堅牢でダイナミックな動作スキルを発揮します。これらのスキルは、プラットフォームから直感的に期待される以上に、スムーズで安定した、効率的な方法で自動的に移行します。また、ボールの動きを予測したり、相手のシュートをブロックしたりと、ゲームの基本的な戦略的理解も深めています。

Preliminary Results: Learning from vision

我々はさらに、深層強化学習（Deep Reinforcement Learning: Deep RL）エージェントがraw egocentric visionから直接学習できるかどうかを調査する。この文脈では、エージェントはカメラを制御し、様々なゲームの側面を予測するために、エゴセントリックビューポイントのウィンドウ上の情報を統合することを学ぶ必要があります。我々の予備的な分析によると、Deep RLはこの難題を解決する有望なアプローチであり、我々のシミュレーションのセットピースでは10/10のゴールを獲得し、実際のロボットでは6/10のゴールを獲得しました。

https://youtu.be/AKog0LroVos

すごいねぇ～～yosider.icon

歩幅合わせてるimo.icon

我々は、Deep Reinforcement Learning (Deep RL) が、低コストで小型のヒューマノイドロボットに対して、動的環境における複雑な行動戦略を構成することができる高度で安全な動作スキルを合成することができるかどうかを調査する。我々はDeep RLを用いて、20個の関節を持つヒューマノイドロボットに、簡略化された1対1（1v1）のサッカーゲームをプレイさせる訓練を行いました。まず、個々のスキルを分離して訓練し、次に、セルフプレイの設定でこれらのスキルをエンドツーエンドで構成しました。その結果、転倒からの復帰、歩行、旋回、キックなど、堅牢でダイナミックな動作スキルを示し、それらの間をスムーズ、安定的、効率的に移行することができました（ロボットに直感的に期待される以上のものです）。また、ボールの動きを予測したり、相手のシュートをブロックしたりと、ゲームに対する基本的な戦略性も身につけました。このような様々な行動は、小さな報酬のセットから生まれました。私たちのエージェントは、シミュレーションで訓練され、実際のロボットにゼロショットで移されました。その結果、モデル化されていない効果やロボットのインスタンス間のばらつきが大きいにもかかわらず、十分に高い頻度の制御、ターゲットダイナミクスのランダム化、シミュレーションでのトレーニング中の摂動の組み合わせにより、質の高い移行が可能になることがわかりました。ロボットは本来壊れやすいものですが、ハードウェアを少し修正し、トレーニング中の動作を基本的に規則化することで、ロボットは安全で効果的な動作を学習し、ダイナミックで俊敏な動作をするようになりました。実際、エージェントはスコアリングに最適化されていたにもかかわらず、実験ではスクリプトで設定されたベースラインよりも156%速く歩き、63%短い時間で立ち上がり、24%速く蹴ることができ、同時に長期的な目標を達成するためにスキルを効率的に組み合わせることができました。出現した行動の例と1vs1のフルマッチは、補足サイトでご覧いただけます。

個別にスキル獲得してからその組み合わせを学習

end-to-endと言えるのか？

Sim2Real

AIサッカー

Learning Agile Soccer Skills for a Bipedal Robot with Deep Reinforcement Learning

Tuomas Haarnoja, Ben Moran, Guy Lever, Sandy H. Huang, Dhruva Tirumala, Markus Wulfmeier, Jan Humplik, Saran Tunyasuvunakool, Noah Y. Siegel, Roland Hafner, Michael Bloesch, Kristian Hartikainen, Arunkumar Byravan, Leonard Hasenclever, Yuval Tassa, Fereshteh Sadeghi, Nathan Batchelor, Federico Casarini, Stefano Saliceti, Charles Game, Neil Sreendra, Kushal Patel, Marlon Gwira, Andrea Huber, Nicole Hurley, Francesco Nori, Raia Hadsell, Nicolas Heess

Submitted on 26 Apr 2023

https://arxiv.org/abs/2304.13653