bb5450697118041
http://nhiro.org.s3.amazonaws.com/6/e/6e2adfcb8400799b2740f858b61c4a64.jpg https://gyazo.com/6e2adfcb8400799b2740f858b61c4a64
(OCR text)
注意点
今実装しているエージェント(A1)がRollout
Policyを使っていることと、シミュレータの中
のエージェント(A2)がどういうポリシーで動く
かとは無関係
そもそも、たまたまシミュレータ
も僕が実装しているからA1とA2を
混同しそうになるだけであって、
シミュレータはブラックボックス
で他からgivenでもよい。その場合
中に何が入っているかは知りえな
いし、POMCPはそれを知らなくて
もよいアルゴリズム。
AI-POMCP-
Ao
人間
モンテカルロ木探索の解説で「互
いにランダムに行動して終局まで
プレイ」と言われることがあるが、
これはたまたま両方のエージェン
トがランダムに手を選ぶ方策なだ
けで、必要条件ではない。
A2
42