線形バンディット
行動がd次元ベクトルで表現され、d次元の未知のパラメータと内積をとってノイズが乗ったものが報酬になるモデル
$ X_i(t) = \theta^\top a_i + \epsilon(t)
基本的な
バンディット
はこの行動ベクトルが
one-hot
である場合に相当する
#強化学習