強化学習
強化学習(きょうかがくしゅう、英: Reinforcement learning)とは、ある環境内におけるエージェントが、現在の状態を観測し、取るべき行動を決定する問題を扱う機械学習の一種。エージェントは行動を選択することで環境から報酬を得る。強化学習は一連の行動を通じて報酬が最も多く得られるような方策(policy)を学習する。代表的な手法としてTD学習やQ学習が知られている。
最も基本的なモデルでは、ここでの環境は、有限状態数のマルコフ決定過程として定式化される。また、強化学習のアルゴリズムは動的計画法に類似したアルゴリズムである。
引用元
https://ja.wikipedia.org/wiki/強化学習
#テーマ5