inverse model
逆モデル
現在の
状態
$ s_t
と次の状態
$ s_{t+1}
から取った
行動
を推定:
$ \hat{a}_t=g(s_t, s_{t+1})
行動予測
誤差
の
逆伝播
により
$ g
を学習