楽観的初期値法 - 西尾泰和の外部脳

楽観的初期値法

2017-01-11

楽観的初期値法を知らなかったので実験して見たけど僕の問題設定ではUCB1と報酬平均が逆転するのに20000試行くらい掛かってて、応用対象によってはこっちの方が良いケースもありそうだなぁと思った。

p.33

https://image.slidesharecdn.com/1-170113055708/95/1-32-638.jpg

https://image.slidesharecdn.com/1-170113055708/95/1-33-638.jpg