ドーパミン報酬予測誤差仮説
報酬予測 - 脳科学辞典
ドーパミンニューロンのphasic活動は、強化学習で一般に報酬予測誤差と呼ばれる学習信号を符号化していると考えられており、これは「ドーパミン報酬予測誤差仮説(the dopamine reward prediction error hypothesis)」と呼ばれている[41] [42] [43]。
ドーパミン報酬予測誤差仮説を支持する研究結果として、たとえば、サルのドーパミンニューロンの反応が学習に伴い変化することが知られている[41] [44]。
ドーパミンニューロンは、学習の初期には報酬の獲得にあわせて活動を増大させる。
この反応は学習が進むにつれ消失し、報酬を予測する手がかり刺激の呈示直後に活動が増大するようになる。
また、予想された報酬が呈示されなかった場合には、報酬が予測された時刻の活動が低下する。
これらのことは、ドーパミンニューロンが正負の報酬予測誤差を両方向的に符号化していることを示唆している[9]。
さらに、阻止効果に関する実験でもドーパミンニューロンが強化学習の理論から予見される学習信号を反映した活動をみせることが確認されおり[45] [46]、またオプトジェネティクスを用いてドーパミンニューロンの活動を人為的に操作すると報酬予測に関連した学習が阻害されることも報告されている[47] 。
報酬予測誤差を反映したドーパミンニューロンの活動は、神経可塑性を介して脳における価値表現を調節すると考えられている。
ドーパミンニューロンは、前述の刺激や行動の価値を反映した神経活動が報告されている脳領域の多くに投射しており[9] [10]、投射先のニューロンのシナプス強度はドーパミンニューロンが活動することで放出されるドーパミンによって調節される[48] [49]。
近年では、ドーパミンニューロンの他にも、線条体[50]や内側前頭前皮質[51]で報酬予測誤差を反映した活動をみせるニューロンが見つかっている。
さらに、外側手綱核ではドーパミンニューロンとは逆に罰の予測に関連して負の報酬予測誤差を反映するニューロンの活動が報告されている[52]。これらの神経活動もなんらかの形で報酬予測に関連する神経活動の調整にかかわっているものと考えられるが、その詳細はまだわかっていない[2]。また、報酬予測誤差そのものが脳でどのように計算されているのかという問題も今後の重要な研究課題の一つといえるだろう[2] [53] [54] [55] [56]。
from 黒質
黒質緻密部ドーパミン作動性ニューロンの機能は複雑である。当初考えられていたように運動制御に直接関わるものではない。
すなわち「ドーパミンニューロンは、新規かつ予想外の刺激によって、報酬予測を可能とするような刺激がない状況では一次報酬によって、また学習中に活性化される」。
ドーパミン作動性ニューロンはどのような行動が報酬(たとえば食物やセックスなど)をもたらすのかを予測するための学習に関与すると考えられている。
とくに、ドーパミンニューロンは、予測していたよりも報酬が大きいときに発火する(すなわち報酬予測誤差信号を担う)ということが示唆されており、これが強化学習理論におけるTD誤差信号に類似することから、大脳基底核の神経回路において強化学習が実現していると考える仮説の有力な根拠となっている。
この報酬予測誤差信号はその行動の期待値を更新するために用いられると考えられ、習慣形成や手続き記憶の形成に関わっていると推測されている。
ドーパミン作動性ニューロンの発火は、投射先の線条体でのドーパミン放出を引き起こし、線条体投射ニューロンのD1受容体、D2受容体に作用する。 多くの薬物乱用においては、たとえばコカインなどの薬物がこの報酬反応を刺激するために、薬物中毒を引き起こすと考えられている。