bb5450697118042
http://nhiro.org.s3.amazonaws.com/a/4/a4c4140cd7e05afc3c900dabb161155a.jpg https://gyazo.com/a4c4140cd7e05afc3c900dabb161155a
(OCR text)
注意点
43
モンテカルロ木探索はよく「ランダムに手を
選んで終局までプレイ、 勝率で評価」と説明
されるが、これは強化学習の言葉でいえば
時間幅T→oでの報酬を収益とすること。
これは必要条件では
ない。
POMCPの論文では収益の定義として
割引報酬和を使っている。
また割り引いた結果が十分小さくなるところ
で打ち切るため、実質的に「木の深さに上限
を設けている」という形になる。