bb5450697118,042 - nishio-a2

bb5450697118042

http://nhiro.org.s3.amazonaws.com/a/4/a4c4140cd7e05afc3c900dabb161155a.jpg https://gyazo.com/a4c4140cd7e05afc3c900dabb161155a

(OCR text)

注意点

モンテカルロ木探索はよく「ランダムに手を

選んで終局までプレイ、勝率で評価」と説明

されるが、これは強化学習の言葉でいえば

時間幅T→oでの報酬を収益とすること。

これは必要条件では

ない。

POMCPの論文では収益の定義として

割引報酬和を使っている。

また割り引いた結果が十分小さくなるところ

で打ち切るため、実質的に「木の深さに上限

を設けている」という形になる。