SARSA
強化学習
の手法の一つで,実際に
エージェント
を行動させることで得られた次の
状態
における
評価
を参考に,少しずつ
Q値
を更新して
最適化
する
方策オン
の方式.