SARSA
モデルフリー強化学習(Model-Free RL)
の一つ
マルコフ決定過程(MDP)
が未知でも使える
その代わり、データを自分で試行錯誤して集める必要がある
State-Action-Reward-State-ActionでSARSA
更新時に次にエージェントが取る行動まで考慮するのが特徴
自分の
ポリシー(policy)
に従って選んだ行動を学習に反映するので
on-policy
$ \delta_t = r_{t+1} + \gamma Q(s_{t+1},a_{t+1}) - Q(s_t,a_t)
Q-learning