DayDreamer: World Models for Physical Robot Learning
A dream come true! We introduce DayDreamer, where we apply world models for fast end-to-end learning on 4 physical robots, without simulators. We learn quadruped walking from scratch in 1 hour. We also learn to pick & place balls directly from pixels and sparse rewards 🤖🌏👇 pic.twitter.com/jOcJ7PwXlo https://video.twimg.com/tweet_video/FWbjeARUYAIchhc.mp4
https://video.twimg.com/ext_tw_video/1544759466293227520/pu/vid/960x720/c82F4BrPmC_AACsP.mp4
複雑な環境下でタスクを解決するために、ロボットは経験から学習する必要がある。深層強化学習はロボット学習の一般的なアプローチだが、学習には大量の試行錯誤が必要で、物理世界での展開には限界がある。そのため、ロボット学習の進歩の多くはシミュレーターに依存している。一方、シミュレータ内での学習は、実世界の複雑性を捉えることができず、シミュレータの不正確さの影響を受けやすく、得られた行動も世界の変化に適応できない。Dreamerアルゴリズムは、学習された世界モデルの中で計画を立てることにより、少量のインタラクションから学習し、ビデオゲームにおける純粋な強化学習を凌駕する大きな可能性を最近示している。世界モデルを学習して潜在的な行動の結果を予測することで、想像でのプランニングが可能になり、実環境で必要な試行錯誤の量を減らすことができます。しかし、Dreamerが物理的なロボットにおいて、より高速な学習を促進できるかどうかは不明である。本論文では、Dreamerを4台のロボットに適用し、シミュレータを使わずにオンラインで直接実世界で学習させる。Dreamerは、四足歩行ロボットの背中から転がり、立ち上がり、歩行をゼロから、リセットなしで、わずか1時間で学習させる。その後、ロボットを押してみると、Dreamerは10分以内に適応し、外乱に耐えたり、素早く横転して立ち上がったりすることがわかった。2種類のロボットアームにおいて、ドリーマーはカメラ画像と疎な報酬から直接複数の物体を選んで配置することを学習し、人間の性能に近づいた。車輪ロボットでは、ドリーマーはカメラ画像のみから目標位置へのナビゲーションを学習し、ロボットの姿勢に関するあいまいさを自動的に解決する。すべての実験において同じハイパーパラメータを用いることで、Dreamerは実世界でオンライン学習が可能であることがわかり、強力なベースラインを確立することができた。我々は、世界モデルのロボット学習への将来の応用のために、我々のインフラを公開する。 Submitted on 28 Jun 2022