Ch12: Conditioning and Associative Learning (The Oxford Handbook of Human Memory)の勉強メモ
from The Oxford Handbook of Human Memory. Oxford University Press(Oxford Univ. Press, 2024)
連合学習(Associative learning)
何かの感覚的な手掛かりや運動から他の刺激を予測できることを学習する
パブロフの犬
音刺激から報酬刺激が予測できることを学習
本来報酬に対して唾液を出していたが、音刺激だけで唾液を出すようになる
連合学習の基礎
2つの連合学習(Associative learning)タイプ
2つの要素の関係を学習
古典的条件付け(Classical Conditioning)
2つの手掛かりの関係を学習
典型的なのは、CSとUSの関係の学習
条件刺激(Conditioned Stimulus; CS)
ニュートラルな刺激
光や音など
無条件刺激(Unconditioned Stimulus; US)
生物にとっての報酬や罰
食べ物や水、電気刺激
CS→USを繰り返すと、CSの後(USの前)にUSに対する応答が現れる
オペラント条件付け(operant conditioning)
自身の行動と報酬の関係を学習する
特定の行動をとる頻度を変化させる
2つの連合学習に共通する性質
どのように学習されるか
対応する応答が学習されるかNaa_tsure.icon?
1. 学習は徐々に段階的に起こる
学習プロセスは
ゆっくりで
複数のcue/behavior - rewardのペアがあり
結びつきが学習される前には報酬が必要となる
2. 学習が起こるかはcue/behavior - rewardの同時発生確率による
cue/behaviorがどれだけrewardの存在を予測できるか?
古典的条件付け(Classical Conditioning)
Stimulus-outcome; SO
cueとそれから予測されるrewardの連合
受動的
オペラント条件付け(operant conditioning)
Stimulus-response; SR
cueがあったときにとる行動がrewardによって強化される連合
習慣性
Response-outcome; RO
行動とそれによって得られる報酬の連合
能動的
目標指向性
連合学習の理論
近接性(contiguity)
cue-rewardの時間的な近接性によって学習が成立する
これだけでは実は不十分
阻止(Blocking; BL)
CS-AとUSの結びつきが成立した後にCS-A,BとUSを提示しても、CS-BとUSの間に結びつきが成立しない
CS-USの結びつきを学習後、CSがない状態でUSを与えると結びつきが弱まる
重要なのは、USがどの程度の確率でCSと同時に現れるのか
エラー修正としての連合学習
rescorla-wagner rule
CSに基づいて次に来るUSを予測する
実際のUSの強さと予測していたUSの強さを比較する
予測報酬誤差(Reward-Prediction Error; RPE)
この予測誤差に基づいてCSとUSの結びつきを修正する
これによって阻止(Blocking; BL)を説明できる
CS-AだけでUSの大きさを予測できるので、CS-A,CS-BとUSを同時に提示した場合に予測報酬誤差が生じない
つまり、CS-BとUSの結びつきが修正されない
これはTemporal Difference error; TD errorにも繋がる
強化学習(Reinforcement Learning; RL)
単純な連合理論の限界
古典的条件付け(Classical Conditioning)の場合
spontaneus recovery
CSとUSの結びつきを学習させる
CSのみを与え、結びつきを弱める
Extinction phase
しばらく時間を空けたのち、CSを与えるとCSに対する応答が再び現れる
これはrescorla-wagner ruleでは説明できない
Extinction は結びつきを消しているのではない
他のメカニズムが必要
multiple meomries
shifting temporal context
latent couse inference
forgetting
re-learning
Backward Blocking
CS-A,BとUSをペアでトレーニング
CS-AのみとUSをペアでトレーニング
CS-Aに対する応答は継続する
CS-Bに対する応答が減衰する
これもrescorla-wagner ruleでは説明できない
CS-Bは与えていないので、このcueに対する予測報酬誤差は生じないはず
オペラント条件付け(operant conditioning)の場合
潜在学習(latent learning)
ラットを報酬あり/なしに分けて、迷路でトレーニング
報酬あり群は解くスピードが上昇したが、なし群では上がらなかった
10日間のトレーニング後、11日目は両群に迷路のゴールで報酬を与えた
報酬なし群が迷路を解くスピードは、すぐ報酬あり群にに追いついた
ラットは潜在的に迷路の構造を学習していた可能性がある。
Naa_tsure.iconこれも近そう
Unsupervised pretraining in biological neural networks|Nature(2025)
ここから学べる注意点は、成績が低いのは学習していないわけではなく、それを実行する目標指向性を誘導する報酬が弱いだけの可能性
報酬の脱価値化(reward devaluation)
ラットに餌を報酬としてレバー押しをトレーニングで学習させる
別の環境で餌を食べることで体調を崩す経験をさせる
元の環境に戻してもラットはレバーを押さなくなる
しかし、トレーニングの段階を長くするとこれは起こらない
習慣行動レベルになると報酬の変化などに無頓着になる?
目標指向性行動 vs 習慣行動
強化学習(Reinforcement Learning; RL)
モデルフリー強化学習(Model-Free RL)
シンプルな連合学習モデルに相当
Dorsolateral 線条体(Striatum)が関与?
モデルベース強化学習(Model-Based RL)
より洗練されたモデル
外界の構造を記憶し、これを元に価値や結びつきを推論する
Dorosomedial 線条体(Striatum)が関与?
同様な違いが人間のカテゴリ学習(Category learning)でも提案
Category learning and multiple memory systems|Trends Cogn Sci(2005)
Naa_tsure.iconこれも関連?
Synergizing habits and goals with variational Bayes|Nat Commun(2024)
連合学習から人間の記憶へ
異なる学習をサポートするために、異なる複数の記憶システムが共存している
モデルフリー強化学習(Model-Free RL)
非陳述記憶(Non-declarative memory)
手続き記憶(Procedual memory)
モデルベース強化学習(Model-Based RL)
宣言的記憶(Declarative memory)
エピソード記憶(episodic memory)
モデルフリーでは対応しきれない複雑な環境のサポート役?
人間の記憶における価値ベース学習
報酬は何を学習するか?だけでなく、何を記憶するか?にも影響する
記憶には容量の問題があるので、優先順位を持たせるのは重要
古典的条件付け(Classical Conditioning)の例
トライグラム(trigram)を覚えさせ、報酬/罰を与える
4種類の報酬/罰:
成功で高報酬(5¢)/低報酬(1¢)/何もなし/失敗で電気ショック
短期的にはペア間に差はないが、長期的には高報酬/罰回避の正答率が高い
報酬は記憶の優先順位づけに役立っている可能性
批判:
高報酬に対する選択的注意 (selective attention)/リハーサル (rehearsal)
ブロック構造の導入/報酬ごとに被験者を分けることでこれを防ぐ
それでもなお、高報酬の方が定着率が良かった
脳部位と報酬学習の関連
報酬はMemory Encodingのタイミングで覚えるアイテムの選択に影響する
タスク:
1. Anticipation:
アイテムが提示される前にそれを覚えたらもらえる報酬を予告
2. Encoding:
その後アイテムを提示
3. Retrieval
しばらくしてから再生テスト
3.で思い出しに成功したアイテムでは、2. Memory Encodingのタイミングで既に報酬関連の脳領域の活動が上昇
腹側被蓋野(ventral tegmental area; VTA)
側坐核(nucleus accumbens; NACc)
海馬(hippocampus)との活動が相関する
報酬がどれを覚えるかをMemory Encodingのタイミングで影響?
Reward-Motivated Learning: Mesolimbic Activation Precedes Memory Formation|Neuron(2006)
報酬は直接関係ない刺激の記憶にも影響する
Task:
1. 参加者はまず「画像」を提示される
2. その直後に 数字判断課題(number judgement task) を行う
3. この数字課題で正答すると、確率的に金銭報酬がもらえる
4. 実験終了後、画像が前の実験で使われていたかを判断
画像は時間的に近接していただけだが、報酬がもらえた画像に対する正答率が高かった。
Reward-Related fMRI Activation of Dopaminergic Midbrain Is Associated with Enhanced Hippocampus-Dependent Long-Term Memory Formation|Neuron(2005)
また同様の結果が、好奇心(Curiosity)でも得られた
好奇心がそそられない質問に比べて、そそられる質問では画像に対する記憶力が上昇していた
States of Curiosity Modulate Hippocampus-Dependent Learning via the Dopaminergic Circuit|Neuron(2014)
これらのは中脳(midbrain)の報酬関連領域が関連していた
黒質(substantia nigra)
側坐核(nucleus accumbens; NACc)
またこの領域の神経活動から後の記憶の成功を予測できた
報酬シグナルが強ければ、必ず記憶が強いのか?
実際には、予測報酬誤差(Reward-Prediction Error; RPE)が記憶の形成を導いているという証拠が集まってきている
Reward Prediction Error and Declarative Memory|Trends Cogn Sci(2020)
Naa_tsure.iconこれも関連?
The curious case of dopaminergic prediction errors and learning associative information beyond value|Nat Rev Neurosci(2025)
ここまでの研究はMemory Encodingのタイミングで報酬を教えている
これを覚えたら、テストのタイミングで1000円もらえるみたいな
今度はこれを、オペラント条件付け的に学ばせる
単語を2つ提示し被験者の選択に応じてそれに対応した報酬がもらえる
被験者は選択とその報酬FBを通して単語(とその価値)を学習する
価値学習課題(value-learning task)
学習フェーズの後、報酬を与えない状態でどの程度覚えているかテスト
報酬が多かった単語をよく覚えていた
High reward makes items easier to remember, but harder to bind to a new temporal context|Front Integr Neurosci(2012)
これの続きの研究では、報酬のレベルを複数設定した
一番高い報酬だけでなく、一番低い報酬の単語もよく覚えていた
Is the enhancement of memory due to reward driven by value or salience?|Acta Psychol(2012)
Naa_tsure.iconこれって予測報酬誤差(Reward-Prediction Error; RPE)が大きいものと理解することもできそう
報酬が異なる学習に与える影響の性質
指示された報酬型(instructed rewards)
「覚えたら○円」と直接指示される
報酬は「刺激に付随する属性(ソース情報)」として記憶される
例: フォントの色や場所と同じカテゴリの情報
Naa_tsure.icon対象そのものとは別の追加情報という感じ?
価値学習型(operant-like)
選択+フィードバックを通じて価値を学習
偶発的にエンコードされ、報酬は「記憶そのものの感情的・動機づけ的属性」として組み込まれる
例: 「ワクワクする/嫌な気持ちがする」といった情動的特徴に近い
Naa_tsure.icon対象そのものから感じるもの(印象)という感じ?
エピソード記憶と意思決定
今までは刺激 - 報酬というシンプルな結びつきの話
実世界はもっと複雑、多様な刺激・行動があり、それぞれに異なる報酬履歴
意思決定の時は過去の経験を参照し、新しい文脈に適応する必要性
エピソード記憶(episodic memory)が柔軟な意思決定に重要かも
Integrating memories to guide decisions|Curr Opin Behav Sci(2015)
異なる刺激間で連合を一般化する必要がある状況の簡単な例
感覚性先行条件づけ(sensory preconditioning)
1. 2つの中性刺激(AとB)の間の連合を学習
2. 刺激Bが報酬と結びついていることを学習
3. Aも報酬を予測する刺激だと学び、別の中性刺激よりAを好む
実際にはAと報酬は直接的にはつながっていない。
人間が異なる学習エピソード間の情報を統合できる能力を反映?
ヒトfMRIで感覚性先行条件づけ(sensory preconditioning)をテスト
Preference by Association: How Memory Mechanisms in the Hippocampus Bias Decisions|Science(2012)
1. 画像 AとBをペア学習(報酬なし)
2. 画像Bの一部と報酬を結びつける
3. A同士から選択(A自体は報酬と直接結びついていない)
線条体(Striatum)での報酬学習のみであれば、Aは報酬と結びつかない
つまりAの画像はランダムに選ばれるはず
海馬(hippocampus)も報酬時に駆動されていれば、Aは報酬と結びつく
報酬と結びついてるBとペアになってるAが選ばれやすいはず
被験者内および被験者間でばらつきがあったものの、
被験者内では報酬と結びついてるBとペアのAに選択がバイアスされた
意思決定バイアスの強さは、報酬学習中の海馬の活動増加と、海馬と線条体の機能的結合の強さによって予測された
この関係はA→Bの連合を明示的に思い出せない場合でも見られた
MEGで測定した研究では、報酬学習の段階で最初の学習段階で画像によって喚起された神経活動パターンが再活性化されていた
Temporal structure in associative retrieval|eLife(2015)
まとめると、意思決定を支える報酬情報が、宣言的記憶システムに統合される
報酬は線条体(Striatum)などの報酬学習のみならず、海馬(hippocampus)の連合学習とも結びついているということ
連合学習-記憶-意思決定
現実の意思決定では複数の選択肢の価値を繰り返しの経験を通じて学習する
レストランのメニューのうち、どれが好きかは試さないとわからない
いろんなメニューを試す中で、その選択の価値を学習していく
そしてこの価値に基づいてメニューの選択を行うようになる
特定の連合が他の連合より強く記憶されるなら、選択がバイアスされる可能性
人はまれな出来事を過小評価し、最近や極端な出来事を過大評価する傾向
例:最後に食べた料理が一番強く印象に残り、次回も選びやすくなる
ピーク・エンド効果(peak-end effect)
メインが微妙でもデザートが美味しかったら店の印象が良くなったり
記憶において最も極端や直近の出来事がアクセスしやすいことと関連
人が過去の結果をどのように記憶し、意思決定時に記憶を取り出すか
記憶と意思決定のいくつかのモデルでは、選択を予測する際に用いられるサンプルは記憶から取り出されると考えられている
そして、そのサンプリングは以下のような要因に左右される:
直近性(recency):
最近の経験ほど取り出されやすい
現在の選択肢との類似性(similarity):
今の状況に似た過去の事例が思い出されやすい
頻度(frequency):
繰り返し経験したことほど思い出されやすい
極端さ(extremeness):
特に強い結果(大成功・大失敗)は記憶から抜き出されやすい
Naa_tsure.icon人は期待値を正しく計算しているのではなく、記憶から偏ったサンプルを引き出して判断している
Naa_tsure.iconポケモンのかみなりがやたら外れるように感じるアレ
人々は記憶と選択の両方において類似したバイアスを示すこと調べられた
Remembering the best and worst of times: Memories for extreme outcomes bias risky decisions|Psychon Bull Rev(2014)
参加者は繰り返しドアのペアから選択する課題を行う
実験で用いられた4つの選択肢の一例:
1. 固定の低価値:必ず20が得られる
2. 固定の高価値:必ず60が得られる
3. リスクのある低価値:50%で0、50%で40
4. リスクのある高価値:50%で40、50%で80
つまり「安全 vs 危険」「低 vs 高」の2軸で4条件を用意した課題
各試行で、参加者には2つのドアが提示され、そのどちらかを選ぶ
例えば高価値のドアのペアまたは低価値のドアのペアが提示される
プロスペクト理論(Prospect Theory)によると、
相対的な利益(高価値のドア)ではリスク回避的になり
相対的な損失(低価値のドア)ではリスク選好的になるはず
今回の実験では、リスクが明示されてる場合と反対の結果が得られた
最良の選択肢と最悪の選択肢を過大評価するかのように選択した
高価値の選択肢 → リスクありを選びやすい
低価値の選択肢 → リスクありを避けやすい
選択課題の後、参加者の選択肢と結果に関する記憶が2つの方法で評価
1. 各選択肢について最初に思い浮かぶ結果を答える
極端な結果を「最初に思い出す結果」として報告
この記憶バイアスはリスク選好と相関
2. 各結果がどれくらいの頻度で起こったかを見積もる
極端な結果の頻度を体系的に過大評価
その程度はリスク選好の強さと相関
試行錯誤による学習で得た価値に基づいて選択を行う場合、記憶の中で特定の結果にどれだけアクセスしやすいかが重要
プライミング(priming)によってリスクを取る確率を操作できるのか?
できるのであれば、これがただの相関ではない可能性が高い
学習段階
参加者は勝ち/負けと中性の画像をペアで覚えさせられる
例:「リンゴの写真 → 80点の勝ち」「机の写真 → 0点の負け」
選択課題
参加者は毎回「安全な選択肢」か「リスクのある選択肢」を選ぶ
選ぶ直前に、以前の学習で見た中性画像が一瞬提示される。
結果
勝ちと結びついていた画像が出ると、参加者はリスクを取りやすくなる
負けと結びついていた画像なら、逆にリスクを避けやすい
記憶バイアスは相関現象ではなく、プライミングで因果的に操作できる
これらの結果は強化学習(Reinforcement Learning; RL)で説明できる
ただし、平均的な報酬ではなく、よりTrialレベルの選択を重視したもの
エピソード的強化学習(episodic RL)
記憶の個別エピソードをサンプルとして活用する強化学習
Reinforcement Learning and Episodic Memory in Humans and Animals: An Integrative Framework|Annu Rev Psychol(2017)
Reminders of past choices bias decisions for reward in humans|Nat Commun(2017)
1.参加者はスロットマシンをプレイする
各結果は「ユニークな絵柄チケット」と一緒に提示される
勝ったとき → 猫の絵チケット
負けたとき → 車の絵チケット
2. しばらく後の試行でそのチケットを提示
3. その直後に、再びスロットを選ばせる
「猫チケット(勝ちと結びついた)」を見た後には、参加者はその勝ちに結びついたスロットを選びやすくなる
Naa_tsure.iconさっきのprimingとやってることは同じ
この実験結果は、チケットに基づいて拾ってくるエピソードを変える(つまり行動の価値が変化する)エピソード的強化学習(episodic RL)と合致する
通常の漸増型強化学習(incremental RL)は行動の価値が過去の経験の平均で決まるため、チケットに影響されないはず
エピソード記憶を連合学習から区別する
連合学習が記憶や行動の理解を支える仕組みとして機能する事例を見てきた
一方、連合学習が適用できそうなのに、結果が支持しないケースも存在する
その典型例が言語ペア連合学習(verbal paired-associates)
無関係な単語同士をペアとして覚える課題
RUBBER–ROCKETというペアを学習する場合を考える
これをS-Rと捉える時、2つの方向性が考えられる
1. RUBBER → ROCKET: 順方向再生(forward recall)
2. ROCKET → RUBBER: 逆方向再生(backward recall)
連合学習の観点では、逆方向と順方向の連合は別に符号化されるはず
連合の対称性(associative symmetry)の問題
一般に順方向再生と逆方向再生は難易度が同程度 
Naa_tsure.iconしかし、成績が似ていても同じ学習メカニズムとは限らない
2つの仮説
1. 独立連合仮説(independent-associations hypothesis)
順方向と逆方向の連合は独立して学習される
連合学習の枠組みに適合
2. 連合対称性仮説(associative-symmetry hypothesis)
連合はひとつの全体的なユニットとして学習される
連合学習とは整合しない
これらを区別するために同じペアを順方向と逆方向の両方でテスト
1.が正しいなら、同じペアの順方向と逆方向の成績は同程度
2.が正しいなら、同じ方向の成績が同程度
結果は順方向・逆方向でテストの成績が強く相関
つまり連合対称性仮説(associative-symmetry hypothesis)が支持された
これは連合学習の刺激–反応(S-R)学習観とは矛盾
他の研究では、同様のパラダイムだが、
既存の複合語や二音節語(ROSE–BUD, SANDWICH, HUSBAND)では
独立連合仮説(independent-associations hypothesis)と整合的だった
まとめると、
新しくて馴染みのないペア → 順も逆もセットで覚える
すでにひとつの単語として知っているもの→ 片方向的な読み出しになる
Naa_tsure.icon記憶は常に同じメカニズムで動いているわけではない
素材の性質によって左右される