複雑な環境における学習
シミュレーション
上でうまく行っても,
実環境
では
複雑
すぎてうまくいかないことが非常に多い.
複雑,
頑健
な
方策
を学習させたい
探索空間を狭める
良い
初期値
から始める
今の主流:
世界モデル
上で
Model-based
に
policy
を
pre-training
して、実際の環境で
Model-free
にpolicyを
fine-tuning
する (
src
)
カリキュラム学習
:簡単な環境から始める
auto-encoder
探索回数
を増やす
self-play
複雑な環境をシミュレーションで再現
研究例
Learning Dexterous In-Hand Manipulation
,
OpenAI
+ 2018
シミュ環境に多様な
ノイズ
を加える
ことで,
高次元
で複雑な実環境にも適応できる
Emergence of Locomotion Behaviours in Rich Environments
,
Heess
+ 2017
複雑で多様な環境を用いる
ことで、
単純な
報酬関数
から
多様
で頑健な行動を
創発
Emergent of Complexity via Multi-Agent Competition
,
Bansal
+ 2018
シンプルな環境
でも、競争的な
self-play
での学習によって複雑で多様な行動を創発
Reinforcement Learning for Improving Agent Design
,
Ha
+ 2018
AlphaStar
DeepMind
2019
逆強化学習
demonstration
から
報酬関数
を推定
深層強化学習の最前線 より汎用的なAIの実現に向けて
より