Integrating memories to guide decisions|Curr Opin Behav Sci(2015)
Daphna Shohamy, Nathaniel D. Daw
DOI: https://doi.org/10.1016/j.cobeha.2015.08.010
エピソード記憶(episodic memory)
意思決定(decision making)
古典的な研究
レバー押し課題
迷路課題
モデルフリー強化学習(Model-Free RL)
ドーパミン(Dopamine)
中脳(midbrain)
個々の記憶(memory)を頼りに意思決定(decision making)していない
様々な行動と、その結果得られた報酬の(移動)平均に頼っている
この戦略では、経験したことのイベントや刻々と変化する環境には対処できない
昔の複数の異なる経験を組み合わせたり、一般化して対処するしかない
モデルベース強化学習(Model-Based RL)
海馬(hippocampus)
前頭前皮質(prefrontal cortex; PFC)
問題点:
過去の経験が多すぎる
未来の可能性(起こりうる事象)が多すぎる
難しい課題だと解き方が無数にある
脳はいつ?どのように?どの順で?情報を統合して意思決定を行うのか?
例:感覚性先行条件づけ(sensory preconditioning)
異なるエピソードを統合するシンプルな例
手順
段階1: 中性刺激A→Bを学ぶ(報酬なし)
段階2: B→報酬を学ぶ
結果: A自体が報酬を予測するものとして扱われる
しかし、Aと報酬は1度も同時に提示されていない
他の例:
潜在学習(latent learning)
ショートカットを編み出す
報酬の脱価値化(reward devaluation)
two-step task
Prospective integration
意思決定(decision making)のタイミングで情報の統合を行っている
完全に初見の問題の場合、その場で考えるしかない
最新の情報まで考慮することができるが、実行まで時間がかかる可能性
海馬(hippocampus)
プリプレイ(preplay)
過去の記憶を引き出す能力と未来を想像する能力は似ている
orbitofrontal cortex (OFC)
初見のモノの価値の推定に働く
Retrospective integration
学習(Memory Encoding)のタイミングに情報の統合を行っている
意思決定を求められる前に、物事を一般化している可能性もある
意思決定時には既に計算済みなので、素早く行動に移せる
海馬(hippocampus)
memory replay
まだ探索していないが報酬がある位置までの軌道が再生されることも
休憩中に既に次の新しいルートの計画を立てている可能性
Reverse replay
報酬を受け取ったタイミングにスタート地点に向かって逆再生
これは分岐することもある
DYNA
2つのメカニズムは互いに共存できる
脳はどのようにこの2つを使い分けているのだろうか?
cost/benefit