マルコフ決定過程
マルコフ決定過程 (Markov decision process; MDP) での強化学習は以下の条件の中、学習していく。
・環境は状態を持ち、それは完全に正確に観測可能。
・エージェントが行動を行うと、環境が確率的に状態遷移し、環境から確率的に報酬が得られる。その遷移確率と報酬が得
られる確率は事前には与えられず、学習過程で学習していく。
・ 報酬の指数移動平均を最大化するように行動する。
環境が完全・正確には観測可能でない場合は、部分観測マルコフ決定過程 (POMDP) という。
引用元
https://ja.wikipedia.org/wiki/強化学習
#テーマ5