バンディットアルゴリズム
強化学習
における
活用
と
探索
の
バランス
を取るための
アルゴリズム
.
ε-greedy方策
UCB方策