The Surprising Ineffectiveness of Pre-Trained Visual Representations for Model-Based Reinforcement Learning
視覚強化学習 (RL) 法では、多くの場合、大量のデータが必要になります。モデルフリー RL とは対照的に、モデルベース RL (MBRL) は、計画を通じて効率的にデータを利用する潜在的なソリューションを提供します。さらに、RL には現実世界のタスクに対する一般化機能がありません。以前の研究では、事前トレーニング済みの視覚表現 (PVR) を組み込むと、サンプル効率と一般化が向上することが示されています。PVR はモデルフリー RL のコンテキストで広く研究されてきましたが、MBRL におけるその可能性はほとんど未開拓のままです。この論文では、モデルベース RL 設定での困難な制御タスクで一連の PVR をベンチマークします。データ効率、一般化機能、および PVR のさまざまなプロパティがモデルベース エージェントのパフォーマンスに与える影響を調査します。驚くべきことに、私たちの結果は、MBRL の場合、現在の PVR は表現を最初から学習するよりもサンプル効率が高くなく、分布外 (OOD) 設定への一般化も優れていないことを明らかにしています。これを説明するために、トレーニングされたダイナミクス モデルの品質を分析します。さらに、データの多様性とネットワーク アーキテクチャが OOD の一般化パフォーマンスに最も大きく貢献することを示します。