マルコフ性
「現在の
状態
$ s_t
から将来の
状態
$ s_{t+1}
に遷移する
確率
は現在の
状態
$ s_t
にのみ依存する」という性質.
強化学習
は
マルコフ性
の仮定のもとで
モデル
化されている.
状態遷移
に
マルコフ性
を仮定したものを
マルコフ決定過程
と呼ぶ.