バンディットアルゴリズム
強化学習における活用と探索のバランスを取るためのアルゴリズム.
ε-greedy方策
UCB方策