bb5450697118043
http://nhiro.org.s3.amazonaws.com/4/3/43cc88db6b080f184eb736d59e60c08a.jpg https://gyazo.com/43cc88db6b080f184eb736d59e60c08a
(OCR text)
44
Tree Policy
現在の状態がTreeに含まれているときに使う方策
Treeの各ノードは
·各actionことの収益の平均V(h, a)
各actionの選択回数 N(h, a)
·信念B(h)
を持っている。
原始的なgreedy方策:「Vが最大になる。を選ぶ」
よく使われるUCB1は選択回数が少ない選択肢を
高めに評価することで利用と探索のトレードオフ