079be9dfd3c0,034
http://nhiro.org.s3.amazonaws.com/8/9/891d9779ca1e561fc27007f231e0b0f8.jpg https://gyazo.com/891d9779ca1e561fc27007f231e0b0f8
(OCR text)
方策反復法
35
方策関数をパラメータの組で表現すると
問題が「最適なパラメータを見つける」
という別の最適化問題に帰着する
AlphaGoも同じアプローチ。
何度も繰り返しプレイして、
より良い方策を探していく。