TAPD
ユニバーサル学習システムの開発の中心となるのは、新しいデータが到着したときに最初から再トレーニングせずに複数のタスクを解決できる能力です。これは、各タスクにかなりのトレーニング時間が必要であるため、非常に重要です。継続的な学習の問題に対処するには、問題空間の複雑さのためにさまざまな方法が必要です。この問題空間には、(1) 以前に学習したタスクを保持することの破滅的な忘却に対処する、(2) より速い学習のための正の前方転移を実証する、(3) 多数のタスクにわたるスケーラビリティを確保する、(4) 明確なタスク境界がない場合でもタスクラベルを必要とせずに学習を促進することが含まれます。この論文では、タスクに依存しないポリシー蒸留 (TAPD) フレームワークを紹介します。このフレームワークは、タスクに依存しないフェーズを組み込むことで問題 (1) ~ (4) を軽減します。タスクに依存しないフェーズでは、エージェントは外部目標なしで環境を探索し、内発的動機のみを最大化します。このフェーズで得られた知識は、後でさらなる探索のために蒸留されます。したがって、エージェントは新しい状態を体系的に探すことで自己教師あり方式で動作します。タスクに依存しない抽出された知識を利用することで、エージェントは下流のタスクをより効率的に解決でき、サンプル効率が向上します。