利用と探索のトレードオフ
強化学習で使われる概念。
exploitation-exploration trade-offs
利用と探索のどっちを先に言うかや「exploitation」をどう訳すかにはバリエーションがある
利用と探索のトレードオフ 62200 98
探索と利用のトレードオフ 50900 294
探索と知識利用のジレンマ
https://gyazo.com/bb6930247def8290e48c7c34b505b47e
有用そうな選択肢を選んでいると、他の選択肢がより有用であることを発見する機会が失われる。
過去の経験からの最適解を選んでいると新しい探索が行われなくなり、ローカルミニマムにはまる 一方、より有用な選択肢を求めて探索を繰り返していると、せっかく見つけた有用な選択肢から利益を得ることができない。
猿山の大将。井の中の蛙大海を知らず。
強化学習の分野で大きく発展したが、初出はもっと古い
Box, G. E., 1954. The exploration and exploitation of response surfaces: some general considerations and examples. Biometrics, 10(1), pp.16-60. 組織学習の領域でも使われている
March, J.G., 1991. Exploration and exploitation in organizational learning. Organization science, 2(1), pp.71-87.
関連
自分の思想にあわせたフィルタを通して情報を得ることによって、思想のローカルミニマムにはまる 探索コストを削減する口実に使われがち