短期的報酬に最適化すると弱くなる例
from
2023-02-14 トップページの導線を整理
短期的報酬に最適化すると弱くなる例
@tsukammo
:
人生最適化
が上手くいかない原因、
ゲーム木
探索
で説明できてしまって困る。
https://gyazo.com/597878edc889a3c2489d01be73177041
@tsukammo
: 直接的な報酬だけによる評価関数だとこうなっちゃうので、よくある"ライフハック"とかは「
好奇心
」とか「細かいstepで刻んでご褒美を用意」とかで、
評価関数
を適正化していっているんだよな。
うん、全部わかってるんだけどね。しないだよね。
利用と探索のトレードオフ