Reminders of past choices bias decisions for reward in humans|Nat Commun(2017)
Aaron M. Bornstein, Mel W. Khaw, Daphna Shohamy, Nathaniel D. Daw
DOI: https://doi.org/10.1038/ncomms15958
強化学習(Reinforcement Learning; RL)
エピソード的強化学習(episodic RL)
1.参加者はスロットマシンをプレイする
各結果は「ユニークな絵柄チケット」と一緒に提示される
勝ったとき → 猫の絵チケット
負けたとき → 車の絵チケット
2. しばらく後の試行でそのチケットを提示
3. その直後に、再びスロットを選ばせる
「猫チケット(勝ちと結びついた)」を見た後には、参加者はその勝ちに結びついたスロットを選びやすくなる
Naa_tsure.iconプライミング(priming)とやってることは同じ
この実験結果は、チケットに基づいて拾ってくるエピソードを変える(つまり行動の価値が変化する)エピソード的強化学習(episodic RL)と合致する
通常の漸増型強化学習(incremental RL)は行動の価値が過去の経験の平均で決まるため、チケットに影響されないはず