A Variance Minimization Approach to Temporal-Difference Learning
高速収束アルゴリズムは、強化学習における現代の要件です。線形関数近似のコンテキストでは、キー行列の最小の固有値の大きさが、収束速度を反映する主要な要因です。従来の値ベースの RL アルゴリズムは、エラーの最小化に重点を置いています。この論文では、エラー最小化の代わりに、値ベースの RL の分散最小化 (VM) アプローチを紹介します。このアプローチに基づいて、ベルマン誤差の分散 (VBE) と投影ベルマン誤差の分散 (VPBE) という 2 つの目的を提案し、VMTD、VMTDC、および VMETD アルゴリズムを導出しました。分散最小化の収束と最適ポリシー不変性の証明を提供しました。実験研究により、提案されたアルゴリズムの有効性が検証されます。