Actor-Critic
価値関数および方策勾配法を組み合わせた強化学習の手法.
行動を決める行動器を行動させながら,評価するCriticも同時に学習させる仕組み.