1e40cd43d981,012

http://nhiro.org.s3.amazonaws.com/4/4/44c28ac9be427e9b9b3dcb9f50395050.jpg https://gyazo.com/44c28ac9be427e9b9b3dcb9f50395050

(OCR text)

REINFORCEアルゴリズム

1行解説:行動価値観数を報酬で近似し、固定長の

試行を繰り返すことで勾配を推定し、方策を更新

する方策勾配法の1つ。

説明に必要な用語の説明すら残り5分では無理!

詳しく知りたい人は「強化学習その3」で

bozumanを検索すると機械学習勉強会での

発表資料が見つかるよ!