バンディットアルゴリズム
限られた試行回数の中で複数の選択肢から最も成果(
報酬
)が高いものを探し出す
強化学習
の手法