ε-greedy方策
バンディットアルゴリズム
の一種.
活用
を基本的に選択しつつ,
確率
εで
ランダム
な行動を取るもの.