bb5450697118028
http://nhiro.org.s3.amazonaws.com/f/2/f2b1301f5e73d1561bf5992abfa40f65.jpg https://gyazo.com/f2b1301f5e73d1561bf5992abfa40f65
bb5450697118,027
bb5450697118,029
bb5450697118
(OCR text)
おさらい:方策(policy)
29
方策 π(a, s) = P(als)
方策はある状態で取る手の確率分布。
最適な方策を見つけるのが強化学習。
Nearest:
bb5450697118,043