バンデットアルゴリズム
バンディットアルゴリズムで扱うのは、
「選択肢はいくつもあるが、どの選択肢が効果が高いのかは事前にはわからない」>
「限られた試行回数でできる限りいい選択肢を選んでいき、トータルの報酬を最大化したい」
バンディットでは学習データがない状況からどの選択肢がよいかを学習しながら、その過程で得られる報酬を最大化することを目的としています。
一方でバンディットアルゴリズムで目指すのは累積報酬の最大化です。有限回の試行の中で報酬を最大化するには、優れたアームを多く引き、劣ったアームは引く回数を抑えることが必要となります(バンディットの文脈では選択肢のことをアームと呼びます)。
e-greedy方策
UCB方策
Thompson Samping方策