強化学習
ある目的に対する報酬を最大化するための行動を学習するもの.
将来にわたって獲得できる累積報酬の最大化を計算する上で,未来に得られる報酬であるほど低い価値とする割引率が適用される.
今の100円の方が1年後の100円より価値があるという考え方
活用
現在の学習から最も高い報酬が得られるだろう行動を選択すること
探索
新たな情報を得るために行動を選択すること
強化学習はニューラルネットワークではない
強化学習かつニューラルネットワークなものはある