トンプソンサンプリング
バンディット問題の理論とアルゴリズム
p.38
トンプソン抽出
期待値を
ベイズ推定
する
各行動の期待値最大である確率でその行動を選ぶ(
確率一致法
)
ただし、この「期待値最大である確率」の計算をやる代わりに
乱択アルゴリズム
を使う
ベイズなので期待値の分布が得られている。この分布からサンプリングをする
サンプリングした結果、値が最大であった行動を選ぶ
これで「期待値最大である確率でその行動を選ぶ」が実現される
https://hagino3000.blogspot.com/2015/07/thompson-sampling.html
https://hagino3000.blogspot.com/2016/12/linear-bandit.html
#強化学習