マルコフ性
「現在の状態$ s_tから将来の状態$ s_{t+1}に遷移する確率は現在の状態$ s_tにのみ依存する」という性質.
強化学習はマルコフ性の仮定のもとでモデル化されている.
状態遷移にマルコフ性を仮定したものをマルコフ決定過程と呼ぶ.