トンプソンサンプリング - 西尾泰和の外部脳

トンプソンサンプリング

バンディット問題の理論とアルゴリズム p.38 トンプソン抽出

期待値をベイズ推定する

各行動の期待値最大である確率でその行動を選ぶ(確率一致法)

ただし、この「期待値最大である確率」の計算をやる代わりに乱択アルゴリズムを使う

ベイズなので期待値の分布が得られている。この分布からサンプリングをする

サンプリングした結果、値が最大であった行動を選ぶ

これで「期待値最大である確率でその行動を選ぶ」が実現される

https://hagino3000.blogspot.com/2015/07/thompson-sampling.html

https://hagino3000.blogspot.com/2016/12/linear-bandit.html