カリキュラム学習
カリキュラム
学習
競争
の報酬のみでは
スパース
すぎる
基本動作
を学ぶためのカリキュラムを導入
丁度いい難易度のタスクを生成する
POET
(2019):適切な
難易度
の環境を
遺伝的アルゴリズム
で生成
対戦
相手の
サンプリング
最新の敵とのみ対戦を行った場合
強さに差が生じた場合、どんどん差が広がっていってしまう
最新の敵に対して
overfitting
してしまう
対戦相手を過去のランダムな敵からサンプリングすることで、 学習の
安定
化と
頑健
なポリシーの獲得が可能になる
他者
の存在
他山の石
他者の運動が見づらい自己の身体の運動学習の足がかりになる?
模倣
サーベイ
記事
https://thegradient.pub/the-promise-of-hierarchical-reinforcement-learning/
#TODO