Actor-Critic

価値関数および方策勾配法を組み合わせた強化学習の手法．

行動を決める行動器を行動させながら，評価するCriticも同時に学習させる仕組み．