UCB方策
バンディットアルゴリズム
のひとつで,
期待値
が高い選択を行いつつも,試した回数が少ない
行動
を優先的に選択するもの.