バンディットアルゴリズム - daiiz

バンディットアルゴリズム

限られた試行回数の中で複数の選択肢から最も成果（報酬）が高いものを探し出す強化学習の手法