Ch12: Conditioning and Associative Learning (The Oxford Handbook of Human Memory)の勉強メモ
何かの感覚的な手掛かりや運動から他の刺激を予測できることを学習する
音刺激から報酬刺激が予測できることを学習
本来報酬に対して唾液を出していたが、音刺激だけで唾液を出すようになる
連合学習の基礎
2つの要素の関係を学習
2つの手掛かりの関係を学習
典型的なのは、CSとUSの関係の学習
ニュートラルな刺激
光や音など
生物にとっての報酬や罰
食べ物や水、電気刺激
CS→USを繰り返すと、CSの後(USの前)にUSに対する応答が現れる
自身の行動と報酬の関係を学習する
特定の行動をとる頻度を変化させる
2つの連合学習に共通する性質
どのように学習されるか
対応する応答が学習されるかNaa_tsure.icon?
1. 学習は徐々に段階的に起こる
学習プロセスは
ゆっくりで
複数のcue/behavior - rewardのペアがあり
結びつきが学習される前には報酬が必要となる
2. 学習が起こるかはcue/behavior - rewardの同時発生確率による
cue/behaviorがどれだけrewardの存在を予測できるか?
cueとそれから予測されるrewardの連合
受動的
cueがあったときにとる行動がrewardによって強化される連合
行動とそれによって得られる報酬の連合
能動的
連合学習の理論
cue-rewardの時間的な近接性によって学習が成立する
これだけでは実は不十分
CS-AとUSの結びつきが成立した後にCS-A,BとUSを提示しても、CS-BとUSの間に結びつきが成立しない
CS-USの結びつきを学習後、CSがない状態でUSを与えると結びつきが弱まる
重要なのは、USがどの程度の確率でCSと同時に現れるのか
エラー修正としての連合学習
CSに基づいて次に来るUSを予測する
実際のUSの強さと予測していたUSの強さを比較する
この予測誤差に基づいてCSとUSの結びつきを修正する
CS-AだけでUSの大きさを予測できるので、CS-A,CS-BとUSを同時に提示した場合に予測報酬誤差が生じない
つまり、CS-BとUSの結びつきが修正されない
単純な連合理論の限界
CSとUSの結びつきを学習させる
CSのみを与え、結びつきを弱める
しばらく時間を空けたのち、CSを与えるとCSに対する応答が再び現れる
他のメカニズムが必要
CS-A,BとUSをペアでトレーニング
CS-AのみとUSをペアでトレーニング
CS-Aに対する応答は継続する
CS-Bに対する応答が減衰する
CS-Bは与えていないので、このcueに対する予測報酬誤差は生じないはず
ラットを報酬あり/なしに分けて、迷路でトレーニング
報酬あり群は解くスピードが上昇したが、なし群では上がらなかった
10日間のトレーニング後、11日目は両群に迷路のゴールで報酬を与えた
報酬なし群が迷路を解くスピードは、すぐ報酬あり群にに追いついた
ラットは潜在的に迷路の構造を学習していた可能性がある。
Naa_tsure.iconこれも近そう
ここから学べる注意点は、成績が低いのは学習していないわけではなく、それを実行する目標指向性を誘導する報酬が弱いだけの可能性
ラットに餌を報酬としてレバー押しをトレーニングで学習させる
別の環境で餌を食べることで体調を崩す経験をさせる
元の環境に戻してもラットはレバーを押さなくなる
しかし、トレーニングの段階を長くするとこれは起こらない
習慣行動レベルになると報酬の変化などに無頓着になる?
シンプルな連合学習モデルに相当
より洗練されたモデル
外界の構造を記憶し、これを元に価値や結びつきを推論する
Naa_tsure.iconこれも関連?
連合学習から人間の記憶へ
異なる学習をサポートするために、異なる複数の記憶システムが共存している
モデルフリーでは対応しきれない複雑な環境のサポート役?
人間の記憶における価値ベース学習
報酬は何を学習するか?だけでなく、何を記憶するか?にも影響する
記憶には容量の問題があるので、優先順位を持たせるのは重要
4種類の報酬/罰:
成功で高報酬(5¢)/低報酬(1¢)/何もなし/失敗で電気ショック
短期的にはペア間に差はないが、長期的には高報酬/罰回避の正答率が高い
報酬は記憶の優先順位づけに役立っている可能性
批判:
ブロック構造の導入/報酬ごとに被験者を分けることでこれを防ぐ
それでもなお、高報酬の方が定着率が良かった
脳部位と報酬学習の関連
タスク:
1. Anticipation:
アイテムが提示される前にそれを覚えたらもらえる報酬を予告
2. Encoding:
その後アイテムを提示
3. Retrieval
しばらくしてから再生テスト
報酬は直接関係ない刺激の記憶にも影響する
Task:
1. 参加者はまず「画像」を提示される
3. この数字課題で正答すると、確率的に金銭報酬がもらえる
4. 実験終了後、画像が前の実験で使われていたかを判断
画像は時間的に近接していただけだが、報酬がもらえた画像に対する正答率が高かった。
好奇心がそそられない質問に比べて、そそられる質問では画像に対する記憶力が上昇していた
またこの領域の神経活動から後の記憶の成功を予測できた
報酬シグナルが強ければ、必ず記憶が強いのか?
Naa_tsure.iconこれも関連?
これを覚えたら、テストのタイミングで1000円もらえるみたいな
今度はこれを、オペラント条件付け的に学ばせる
単語を2つ提示し被験者の選択に応じてそれに対応した報酬がもらえる
被験者は選択とその報酬FBを通して単語(とその価値)を学習する
学習フェーズの後、報酬を与えない状態でどの程度覚えているかテスト
報酬が多かった単語をよく覚えていた
これの続きの研究では、報酬のレベルを複数設定した
一番高い報酬だけでなく、一番低い報酬の単語もよく覚えていた
報酬が異なる学習に与える影響の性質
指示された報酬型(instructed rewards)
「覚えたら○円」と直接指示される
報酬は「刺激に付随する属性(ソース情報)」として記憶される
例: フォントの色や場所と同じカテゴリの情報
Naa_tsure.icon対象そのものとは別の追加情報という感じ?
価値学習型(operant-like)
選択+フィードバックを通じて価値を学習
偶発的にエンコードされ、報酬は「記憶そのものの感情的・動機づけ的属性」として組み込まれる
例: 「ワクワクする/嫌な気持ちがする」といった情動的特徴に近い
Naa_tsure.icon対象そのものから感じるもの(印象)という感じ?
エピソード記憶と意思決定
今までは刺激 - 報酬というシンプルな結びつきの話
実世界はもっと複雑、多様な刺激・行動があり、それぞれに異なる報酬履歴
意思決定の時は過去の経験を参照し、新しい文脈に適応する必要性
異なる刺激間で連合を一般化する必要がある状況の簡単な例
1. 2つの中性刺激(AとB)の間の連合を学習
2. 刺激Bが報酬と結びついていることを学習
3. Aも報酬を予測する刺激だと学び、別の中性刺激よりAを好む
実際にはAと報酬は直接的にはつながっていない。
人間が異なる学習エピソード間の情報を統合できる能力を反映?
1. 画像 AとBをペア学習(報酬なし)
2. 画像Bの一部と報酬を結びつける
3. A同士から選択(A自体は報酬と直接結びついていない)
つまりAの画像はランダムに選ばれるはず
報酬と結びついてるBとペアになってるAが選ばれやすいはず
被験者内および被験者間でばらつきがあったものの、
被験者内では報酬と結びついてるBとペアのAに選択がバイアスされた
意思決定バイアスの強さは、報酬学習中の海馬の活動増加と、海馬と線条体の機能的結合の強さによって予測された
この関係はA→Bの連合を明示的に思い出せない場合でも見られた
MEGで測定した研究では、報酬学習の段階で最初の学習段階で画像によって喚起された神経活動パターンが再活性化されていた
まとめると、意思決定を支える報酬情報が、宣言的記憶システムに統合される
連合学習-記憶-意思決定
現実の意思決定では複数の選択肢の価値を繰り返しの経験を通じて学習する
レストランのメニューのうち、どれが好きかは試さないとわからない
いろんなメニューを試す中で、その選択の価値を学習していく
そしてこの価値に基づいてメニューの選択を行うようになる
特定の連合が他の連合より強く記憶されるなら、選択がバイアスされる可能性
人はまれな出来事を過小評価し、最近や極端な出来事を過大評価する傾向
例:最後に食べた料理が一番強く印象に残り、次回も選びやすくなる
メインが微妙でもデザートが美味しかったら店の印象が良くなったり
記憶において最も極端や直近の出来事がアクセスしやすいことと関連
人が過去の結果をどのように記憶し、意思決定時に記憶を取り出すか
記憶と意思決定のいくつかのモデルでは、選択を予測する際に用いられるサンプルは記憶から取り出されると考えられている
そして、そのサンプリングは以下のような要因に左右される:
直近性(recency):
最近の経験ほど取り出されやすい
現在の選択肢との類似性(similarity):
今の状況に似た過去の事例が思い出されやすい
頻度(frequency):
繰り返し経験したことほど思い出されやすい
極端さ(extremeness):
特に強い結果(大成功・大失敗)は記憶から抜き出されやすい
Naa_tsure.icon人は期待値を正しく計算しているのではなく、記憶から偏ったサンプルを引き出して判断している
Naa_tsure.iconポケモンのかみなりがやたら外れるように感じるアレ
人々は記憶と選択の両方において類似したバイアスを示すこと調べられた
参加者は繰り返しドアのペアから選択する課題を行う
実験で用いられた4つの選択肢の一例:
1. 固定の低価値:必ず20が得られる
2. 固定の高価値:必ず60が得られる
3. リスクのある低価値:50%で0、50%で40
4. リスクのある高価値:50%で40、50%で80
つまり「安全 vs 危険」「低 vs 高」の2軸で4条件を用意した課題
各試行で、参加者には2つのドアが提示され、そのどちらかを選ぶ
例えば高価値のドアのペアまたは低価値のドアのペアが提示される
相対的な利益(高価値のドア)ではリスク回避的になり
相対的な損失(低価値のドア)ではリスク選好的になるはず
今回の実験では、リスクが明示されてる場合と反対の結果が得られた
最良の選択肢と最悪の選択肢を過大評価するかのように選択した
高価値の選択肢 → リスクありを選びやすい
低価値の選択肢 → リスクありを避けやすい
選択課題の後、参加者の選択肢と結果に関する記憶が2つの方法で評価
1. 各選択肢について最初に思い浮かぶ結果を答える
極端な結果を「最初に思い出す結果」として報告
この記憶バイアスはリスク選好と相関
2. 各結果がどれくらいの頻度で起こったかを見積もる
極端な結果の頻度を体系的に過大評価
その程度はリスク選好の強さと相関
試行錯誤による学習で得た価値に基づいて選択を行う場合、記憶の中で特定の結果にどれだけアクセスしやすいかが重要
できるのであれば、これがただの相関ではない可能性が高い
学習段階
参加者は勝ち/負けと中性の画像をペアで覚えさせられる
例:「リンゴの写真 → 80点の勝ち」「机の写真 → 0点の負け」
選択課題
参加者は毎回「安全な選択肢」か「リスクのある選択肢」を選ぶ
選ぶ直前に、以前の学習で見た中性画像が一瞬提示される。
結果
勝ちと結びついていた画像が出ると、参加者はリスクを取りやすくなる
負けと結びついていた画像なら、逆にリスクを避けやすい
記憶バイアスは相関現象ではなく、プライミングで因果的に操作できる
ただし、平均的な報酬ではなく、よりTrialレベルの選択を重視したもの
記憶の個別エピソードをサンプルとして活用する強化学習
1.参加者はスロットマシンをプレイする
各結果は「ユニークな絵柄チケット」と一緒に提示される
勝ったとき → 猫の絵チケット
負けたとき → 車の絵チケット
2. しばらく後の試行でそのチケットを提示
3. その直後に、再びスロットを選ばせる
「猫チケット(勝ちと結びついた)」を見た後には、参加者はその勝ちに結びついたスロットを選びやすくなる
Naa_tsure.iconさっきのprimingとやってることは同じ
エピソード記憶を連合学習から区別する
連合学習が記憶や行動の理解を支える仕組みとして機能する事例を見てきた
一方、連合学習が適用できそうなのに、結果が支持しないケースも存在する
無関係な単語同士をペアとして覚える課題
RUBBER–ROCKETというペアを学習する場合を考える
これをS-Rと捉える時、2つの方向性が考えられる
連合学習の観点では、逆方向と順方向の連合は別に符号化されるはず
一般に順方向再生と逆方向再生は難易度が同程度
Naa_tsure.iconしかし、成績が似ていても同じ学習メカニズムとは限らない
2つの仮説
順方向と逆方向の連合は独立して学習される
連合学習の枠組みに適合
連合はひとつの全体的なユニットとして学習される
連合学習とは整合しない
これらを区別するために同じペアを順方向と逆方向の両方でテスト
1.が正しいなら、同じペアの順方向と逆方向の成績は同程度
2.が正しいなら、同じ方向の成績が同程度
結果は順方向・逆方向でテストの成績が強く相関
これは連合学習の刺激–反応(S-R)学習観とは矛盾
他の研究では、同様のパラダイムだが、
既存の複合語や二音節語(ROSE–BUD, SANDWICH, HUSBAND)では
まとめると、
新しくて馴染みのないペア → 順も逆もセットで覚える
すでにひとつの単語として知っているもの→ 片方向的な読み出しになる
Naa_tsure.icon記憶は常に同じメカニズムで動いているわけではない
素材の性質によって左右される