探索と活用のジレンマ
#単語帳
機械学習やアルゴリズムにおける、意思決定のジレンマ。
�T���Ɨ��p�̃W�����}�iExploration-Exploitation Dilemma�j�^�g��� �h�I�t�iTradeoff�j�Ƃ́H�FAI�E�@�B�w�K�̗p�ꎫ�T - ��IT
このジレンマは、強化学習以外にもさまざまな意思決定の場面で現れる。例えば、
レコメンデーションシステムでは
「新しい商品を提示する(探索)」か
「過去に人気だった商品を推薦する(利用)」か
広告配信では
「新しい広告を試す(探索)」か
「高いクリック率の広告を繰り返す(利用)」か
製造プロセスの最適化では
「新しい条件や手順を導入して改善を図る(探索)」か
「安定した品質が得られる従来の方法を維持する(利用)」か
といった場面が典型例として挙げられる。
こういった場面で現れるジレンマに対して、実際のシステムでは「基本的には過去の成果に基づいて“利用”を優先しつつ、時にはランダムに別の選択肢を試してみる」といった工夫が取り入れられることが多い。