DISTR
現実世界のアプリケーションに広く見られる固有の非定常性を考慮して、継続的強化学習 (RL) は、エージェントに、順番に提示される一連の意思決定タスクに対処する能力を装備することを目指しています。この問題設定では、エージェントが新しいタスクを学習するときに、過去に遭遇したタスクに関連する意思決定知識を簡単に失ってしまう傾向があるという、\textit{壊滅的な忘却} の問題を中心に重要な課題が展開されます。最近の進歩では、\textit{生成再生} 手法は、生成モデルを使用して過去のタスクのデータ分布を再生することで、大きな可能性を示しています。過去のタスクのデータを直接保存する場合と比較して、このカテゴリの手法は、増大するストレージ オーバーヘッドとデータ プライバシーに関する懸念を回避します。ただし、生成モデルの表現能力によって制約されるため、既存の \textit{生成再生} 手法では、特に無数のタスクや高次元データがあるシナリオでは、過去のタスクのデータ分布を忠実に再構築するという課題に直面しています。本稿では、さまざまな生成タスクにおける拡散モデルの成功に着想を得て、拡散モデルを使用して遭遇した各タスクの高収益軌道分布を記憶し、新しいタスクのポリシー学習中にこれらの分布を起動する新しい継続的 RL アルゴリズム DISTR (拡散ベースの軌道再生) を紹介します。また、過去のすべてのデータを毎回再生することは非現実的であることを考慮して、私たちの方法では重要なタスクの軌道再生を優先する優先順位付けメカニズムが提案されています。一般的な継続的 RL ベンチマーク \texttt{Continual World} での実証実験により、提案された方法が \textit{安定性} と \textit{可塑性} の間で好ましいバランスを実現し、平均成功率でさまざまな既存の継続的 RL ベースラインを上回ることが実証されています。