UCB方策
バンディットアルゴリズムのひとつで,期待値が高い選択を行いつつも,試した回数が少ない行動を優先的に選択するもの.