強化学習
ある
目的
に対する
報酬
を最大化するための行動を
学習
するもの.
将来にわたって獲得できる累積
報酬
の最大化を計算する上で,未来に得られる
報酬
であるほど低い価値とする
割引率
が適用される.
今の100
円
の方が1年後の100
円
より価値があるという考え方
活用
現在の
学習
から最も高い
報酬
が得られるだろう行動を選択すること
探索
新たな
情報
を得るために行動を選択すること
強化学習
は
ニューラルネットワーク
ではない
強化学習
かつ
ニューラルネットワーク
なものはある