バンディットアルゴリズム
限られた試行回数の中で複数の選択肢から最も成果(報酬)が高いものを探し出す強化学習の手法