Actor-Critic
価値関数
および
方策勾配法
を組み合わせた
強化学習
の手法.
行動を決める
行動器
を行動させながら,評価する
Critic
も同時に
学習
させる仕組み.