Sarsa
実際に行動してみた結果を使用して期待値の見積を置き換える手法。
#強化学習
#テーマ5