複雑な環境における学習
シミュレーション上でうまく行っても,実環境では複雑すぎてうまくいかないことが非常に多い.
複雑,頑健な方策を学習させたい
探索空間を狭める
良い初期値から始める
今の主流:世界モデル上でModel-basedにpolicyをpre-trainingして、実際の環境でModel-freeにpolicyをfine-tuningする (src)
カリキュラム学習:簡単な環境から始める
auto-encoder
探索回数を増やす
self-play
複雑な環境をシミュレーションで再現
研究例
Learning Dexterous In-Hand Manipulation, OpenAI+ 2018
シミュ環境に多様なノイズを加えることで,高次元で複雑な実環境にも適応できる
Emergence of Locomotion Behaviours in Rich Environments, Heess+ 2017
複雑で多様な環境を用いることで、単純な報酬関数から多様で頑健な行動を創発
Emergent of Complexity via Multi-Agent Competition, Bansal+ 2018
シンプルな環境でも、競争的なself-playでの学習によって複雑で多様な行動を創発
Reinforcement Learning for Improving Agent Design, Ha+ 2018
AlphaStar DeepMind 2019
逆強化学習
demonstrationから報酬関数を推定
深層強化学習の最前線 より汎用的なAIの実現に向けて より