UCB方策 - らぎメモ

UCB方策

バンディットアルゴリズムのひとつで，期待値が高い選択を行いつつも，試した回数が少ない行動を優先的に選択するもの．