ε-greedy方策
バンディットアルゴリズムの一種.
活用を基本的に選択しつつ,確率εでランダムな行動を取るもの.