actor-critic

方策$ \pi_\theta: S \to A

行動(または行動の確率)$ π_\theta(s) = aを出力．

行動価値関数$ Q_\nu: S×A \to \mathbb{R}

Q値$ Q_\nu(s,a)を出力．

学習

経験$ (s, a, r, s')をサンプル

criticの更新

$ Loss_\nu = \lVert Q_\nu(s,a) - r \rVert_2

actorの更新

$ Loss_\theta = -\Sigma_i Q_\nu(s_i,\pi(s_i))\log(\pi_\theta(s_i))

方策オフ(あってる？)

$ Loss_\theta = -\Sigma_i Q_\nu(s_i,a_i)\log(a_i))

actor更新時に$ Qの重みを更新しないよう注意