カリキュラム学習 - AGI

カリキュラム学習

カリキュラム学習

競争の報酬のみではスパースすぎる

基本動作を学ぶためのカリキュラムを導入

丁度いい難易度のタスクを生成する

POET(2019)：適切な難易度の環境を遺伝的アルゴリズムで生成

対戦相手のサンプリング

最新の敵とのみ対戦を行った場合

強さに差が生じた場合、どんどん差が広がっていってしまう

最新の敵に対してoverfittingしてしまう

対戦相手を過去のランダムな敵からサンプリングすることで、学習の安定化と頑健なポリシーの獲得が可能になる

他者の存在

他者の運動が見づらい自己の身体の運動学習の足がかりになる？

サーベイ記事

https://thegradient.pub/the-promise-of-hierarchical-reinforcement-learning/　#TODO