カリキュラム学習
カリキュラム学習
競争の報酬のみではスパースすぎる
基本動作を学ぶためのカリキュラムを導入
丁度いい難易度のタスクを生成する
POET(2019):適切な難易度の環境を遺伝的アルゴリズムで生成
対戦相手のサンプリング
最新の敵とのみ対戦を行った場合
強さに差が生じた場合、どんどん差が広がっていってしまう
最新の敵に対してoverfittingしてしまう
対戦相手を過去のランダムな敵からサンプリングすることで、 学習の安定化と頑健なポリシーの獲得が可能になる
他者の存在
他山の石
他者の運動が見づらい自己の身体の運動学習の足がかりになる?
模倣
サーベイ記事
https://thegradient.pub/the-promise-of-hierarchical-reinforcement-learning/ #TODO