Actor-Critic

価値ベースと方策ベースの手法を組み合わせる。方策ベースのActorは状態を入力として各行動の確率を出力するニューラルネットワークを、価値ベースのCriticでは状態を入力として状態価値を出力するニューラルネットワークを組む。Actorの行動によって与えられた報酬と、Criticが算出した状態価値の情報をもとに、ニューラルネットワークのパラメータを更新していきます。