1e40cd43d981,014

http://nhiro.org.s3.amazonaws.com/8/0/800b2e6e600228039bf58fefbf67d5ce.jpg https://gyazo.com/800b2e6e600228039bf58fefbf67d5ce

(OCR text)

強化学習

状況→行動→状況→行動→.→勝券利!(=報酬)

NOPGR

「その状況でどう行動するのが正解か」(正解)

を直接教えるのではなく

「行動の結果起きたことが良いかどうか」(報酬)

を教える。

機械は繰り返し行動して、

何をすれば良い結果になるかを学んでいく。

5990 090