1e40cd43d981,014
http://nhiro.org.s3.amazonaws.com/8/0/800b2e6e600228039bf58fefbf67d5ce.jpg https://gyazo.com/800b2e6e600228039bf58fefbf67d5ce
1e40cd43d981,013 1e40cd43d981,015
1e40cd43d981
(OCR text)
強化学習
15
状況→行動→状況→行動→.→勝券利!(=報酬)
NOPGR
「その状況でどう行動するのが正解か」(正解)
を直接教えるのではなく
「行動の結果起きたことが良いかどうか」(報酬)
を教える。
機械は繰り返し行動して、
何をすれば良い結果になるかを学んでいく。
LO
5990 090
Nearest: e7f8b82c30be,016