1e40cd43d981,014
http://nhiro.org.s3.amazonaws.com/8/0/800b2e6e600228039bf58fefbf67d5ce.jpg https://gyazo.com/800b2e6e600228039bf58fefbf67d5ce
(OCR text)
強化学習
15
状況→行動→状況→行動→.→勝券利!(=報酬)
NOPGR
「その状況でどう行動するのが正解か」(正解)
を直接教えるのではなく
「行動の結果起きたことが良いかどうか」(報酬)
を教える。
機械は繰り返し行動して、
何をすれば良い結果になるかを学んでいく。
LO
5990 090