actor-critic
方策$ \pi_\theta: S \to A
行動(または行動の確率)$ π_\theta(s) = aを出力.
行動価値関数$ Q_\nu: S×A \to \mathbb{R}
学習
経験$ (s, a, r, s')をサンプル
criticの更新
$ Loss_\nu = \lVert Q_\nu(s,a) - r \rVert_2
actorの更新
$ Loss_\theta = -\Sigma_i Q_\nu(s_i,\pi(s_i))\log(\pi_\theta(s_i))
$ Loss_\theta = -\Sigma_i Q_\nu(s_i,a_i)\log(a_i))
actor更新時に$ Qの重みを更新しないよう注意