SARSA
強化学習の手法の一つで,実際にエージェントを行動させることで得られた次の状態における評価を参考に,少しずつQ値を更新して最適化する方策オンの方式.