DAgger algorithm
#模倣学習 #強化学習
https://gyazo.com/48b3fd234d5366fec45ccbae2bc3b9b3
状態: $ s \in S
行動: $ a \in A
方策: $ \pi
$ \pi : S \rightarrow A と定義
累積的にデータセットを増やしながら方策を学習していく感じ
誤差が少ないらしい