Reinforcement Learning Using a Continuous Time Actor-Critic Framework with Spiking Neurons
Abstract
reward-modulated STDPの2つの問題点
強化学習はふつう離散時間で生体にそぐわない(脳に"timestep"は存在しない)
rewardの計算を正確におこなう神経基盤は不明
本論文では連続時間TD学習をSNNによる連続空間Actor-Criticに対して拡張
Criticが将来の期待報酬を予測する
Morrisの水迷路のようなナビゲーションタスクや,acrobot, cartpoleのような運動制御タスクを解けることを示した.
以下の研究の連続空間・SNNへの拡張
Spatial cognition and neuro-mimetic navigation: a model of hippocampal place cell activity
Models of hippocampally dependent navigation using the temporal difference learning rule
ドーパミン(DA)
喜びに関連する神経伝達物質
報酬または報酬予測イベントが発生すると脳内で放出される
A neural substrate of prediction and reward
STDPをmodulateする(正確な条件は不明)
Dopamine-dependent plasticity of corticostriatal synapses
Timing is not everything: neuromodulation opens the STDP gate
Navigation task
https://gyazo.com/163699f5a1e16ffd89a5b096d23a7c4c
壁(赤)を避けながらreward area(緑)に到達するタスク
ここではゴールに達したら報酬を貰い,壁や障害物にぶつかると罰を受ける
Morrisの水迷路のイメージ
場所細胞はエージェントの位置を表現(下)
青い点が各場所細胞がコードするセルの中心を表す
中心に近づいたときのみ反応する単純な不均一ポアソン過程 (see Model)
criticは,現在の位置で予想される将来の報酬をコード(value map, 右上)
実際の報酬と比較され,TD誤差が発生
actorは位置に応じて進む方向を選択(policy map, 左上)
局所的に周囲を励起し,大域的に周囲を抑制する
状態・行動ともに2次元の連続時間マルコフ決定過程
Continuous Temporal Difference Learningの導出
価値関数$ V^{\pi}(\mathrm{x}(t)):=\left\langle\int_{t}^{\infty} r\left(\mathrm{x}^{\pi}(s), \mathrm{a}^{\pi}(s)\right) e^{-\frac{(s-t)}{\tau_{r}}} \mathrm{d} s\right\rangle_{\mathrm{x}^{\pi}, \mathrm{a}^{\pi}}
価値関数モデル$ Vのパラメータを$ \mathbf{w}とすると$ \dot{\mathbf{w}} = \eta \delta(t) \nabla_{\mathrm{w}} V(\mathbf{x}(t))
$ \delta(t):=\dot{V}(\mathbf{x}(t))-\frac{1}{\tau_{r}} V(\mathbf{x}(t))+r(\mathbf{x}(t), \mathbf{a}(t))
Spiking Neuron Critic
critic:$ V(\mathbf{x}(t)):= \nu \rho(t)+V_{0}
$ \rho(t):critic neuronの発火率
$ V_0:発火のない状態での価値
$ \nu:scaling factor, 単位は (報酬の単位)*(時間)
critic neuron$ iの発火率:$ \rho_{i}(t)=\int_{-\infty}^{\infty} Y(s) \kappa(t-s) \mathrm{d} s \equiv(Y \circ \kappa)(t)
$ Y(t)=\sum_{t \in \mathcal{F}} \delta_{D}\left(t-t^{f}\right):スパイク列
$ \mathcal{F}:ニューロン$ iの発火時刻の集合,$ \delta_{D}:ディラックのデルタ関数
$ \kappa(t):カーネル関数
発火率$ \left<Y\right>を計算したいが,統計平均はオンラインに計算できないので,フィルタ付きの時間平均を用いた
$ \dot{\rho}_{i}(t)=\left(Y_{i} \circ \dot{\kappa}\right)(t)で簡単
独立なニューロンを多数用意すれば統計平均を母集団平均に置き換えることもできる
ここではフィルタつき時間平均のさらに母集団平均を使用
$ \rho(t) =\frac{1}{N_{\text {critic}}} \sum_{i=1}^{N_{\text {critic}}} \rho_{i}(t)
$ N_{critic}=100個のcritic neuronを用意
カーネル関数:$ \kappa(t):=\frac{e^{\frac{-t}{\tau_{\kappa}}}-e^{\frac{-t}{v_{\kappa}}}}{\tau_{\kappa}-v_{\kappa}}
時定数$ v_k=50\mathrm{ms}で増加し,時定数$ \tau_\kappa=200\mathrm{ms}で0に減衰
学習則
$ \delta(t)=\frac{\nu}{N_{\text {critic}}} \sum_{i=1}^{N_{\text {critic}}}\left(Y_{i} \circ \left[\dot{\kappa}-\frac{\kappa}{\tau_{r}}\right]\right)(t)-\frac{V_{0}}{\tau_{r}}+r(\mathbf{x}(t), \mathbf{a}(t))
$ \dot{w}_{i j}=\eta \delta(t) \frac{\partial V(\mathbf{x}(t))}{\partial w_{i j}}=\tilde{\eta} \delta(t)\left(\left[Y_{i} \cdot\left(X^{\hat{t}_i}_j \circ \varepsilon\right)\right] \circ \frac{\kappa}{\tau_{r}}\right)(t)
$ \epsilon:EPSPの時間幅
$ X^{\hat{t}_i}_j:presynaptic neuron$ jのスパイク列(neuron$ iの最後の発火時刻$ \hat{t}_i以降)
$ \tilde{\eta}=\frac{\eta v}{N_{\text {critic}} \Delta u}
TD誤差$ \delta(t)はneuronによらないglobal factor
2つ目のtermはneuron依存,Hebb則の形をしている
価値に対するneuronの貢献度(責任)を反映.これに応じ強化を受ける
TD誤差 * Hebbian LTPの形 → この学習則をTD-LTPと呼ぶ
https://gyazo.com/e2cbc16d284282809c416e26c71a4ac3
reward-modulated STDP(R-STDP)との類似
$ \dot{w}_{ij} = d(t) * \mathrm{STDP}(pre, post)
$ d(t) = r(t) - b, $ b: baseline
STDPの情報は,指数的に減衰する,0.1~0.5sec程度のsynapse-specificなmemory (eligibility trace)にストアされ,globalなsuccess signal$ d(t)が送られてきたときだけ結合に反映される
$ bは報酬の平均値に一致しなければならない:実際には困難
$ d(t)の代わりに$ \delta(t)を使うほうが自然:TD-STDP
同じ報酬予測誤差として働く
上述のTD-LTPでは,post-before-preの発火順序は学習時に無視されていたが,TD-STDPの場合は結合強度の減衰をもたらす
海馬では,細胞外ドーパミン濃度の上昇がpre-before-postを強化する一方でpost-before-preを反転させる→post-before-preは報酬学習には重要でない?
https://gyazo.com/ea4b4a7524c27ab1b75b69fb85661ee3
Gain in sensitivity and loss in temporal contrast of STDP by dopaminergic modulation at hippocampal synapses
線形軌道におけるcriticのテスト
https://gyazo.com/1e805e3004e82b578ecbba93e13c18e5
上のnavigation taskでpolicyを固定($ N_{critic}=20)
C: 価値関数の変化
$ t - t_r: 報酬が与えられる時刻$ t_rまでの時間
試行を重ねる(青→赤)につれ,理論値(灰色の破線)に近づく
黒線:収束値
$ t=t_rから徐々に価値が逆伝播している
伝播速度はカーネル$ \kappaの形状に依存
eligibility traceの役割を果たす:pre-before-postの発火を記録し,減衰しない内にglobal signalが来たら結合に反映する
D: TD誤差の変化
学習が成功しているにもかかわらず明確な逆伝播が見られない
速いノイズが支配的で逆伝播をマスクしている?
生体で逆伝播信号が観察されないことを説明できる?
TD-STDPでも同様に学習可能
Spiking Neuron Actor
https://gyazo.com/d39c5d5c3ae1ae8bf8fad3ecbc33e2a8
$ N_{actor}=180個のニューロンがそれぞれ異なる運動方向をコードする
場所細胞から入力を受け取る
フィルタリングして合計したベクトルを出力とする
B: winner-take-all機構:自身とtuningが類似したニューロンを励起し,他は抑制する
C, D: 成功した試行におけるactor neuronの発火とエージェントの軌道
actor neuronもcritic neuronと同じ学習則で学習する
$ \delta(t)を通してactorとcriticが相互作用
Navigation task with actor-critic
https://gyazo.com/95cbafda99c21ed676dc33159e43576b
4パターンの初期位置,ゴール・壁・障害物で報酬,50sec報酬なしでタイムアウト
初期(B, 青)は壁や障害物の回避に費やし,ランダムに成功した軌道を徐々に強化(B, 赤)
図B,Cのエージェントでは,図Aの「北」の初期値からゴールに到達→東と西から北へ到達→南から西へ到達,という順序で学習.南から東へは到達しなかった.
図D: TD-STDPはTD-LTPよりわずかに悪かった
Acrobot task
https://gyazo.com/751f88f8d70fb17695fab94e57aaf8a7
ジョイントに(弱い)トルクを加えて目標の高さまで振り上げるタスク
状態4次元$ (\theta_1, \theta_2, \dot{\theta_1}, \dot{\theta_2}),行動1次元$ F
4次元空間上の場所細胞が入力をコード
場所細胞の数は指数関数的に増加,より高次元では別の方法が必要
図B: 目標に到達するまでの時間(青: best, 影: 25-75%, 赤: 直接探索), 100secで時間切れ
図C: 軌道例
タイミングの合った制御が必要
時間スケールをモデルに合わせて100msオーダーにした→chaoticで制御不可の場合も
Cartpole task
https://gyazo.com/43b16fddfbe3c83c6cdf5f7ae7f8ff95
状態4次元$ (x, v, \theta, \dot{\theta}),行動1次元$ F
報酬率 $ r(t) = 50 \cos(\theta)
成功:$ |\theta|<\pi/4 for 10 sec after $ t=20sec
失敗:$ |x|>2.5or $ |\theta|>5\pi or $ t > 20sec
今までのタスクでは状態空間の特定の領域に到達するだけだったが,cartpoleでは到達した後に維持することが必要
図C:初期に急速に学習した後,遅いスケールで学習
学習率を可変にした.直近の平均報酬が低いときは学習率を大きくし,高いときは小さくすることで細かい制御を学習可能
non-SNN Actor-Critirでは ~2750trial必要,SNNのほうが若干遅い
actorの発火ノイズが直立状態を保つ妨げになっていた.これが一因?
Discussion
Biological Plausibility
場所細胞→海馬
actor→運動皮質,運動前皮質の古典的なモデル
Primate motor cortex and free arm movements to visual targets in three-dimensional space
critic→腹側線条体の"ramp neuron" (Theta phase precession in rat ventral striatum links place and reward information)
目標に近づくにつれ徐々に活性化する→価値関数を表現?
https://gyazo.com/9e3ddb197fc522aa90f93eb4e127ced1
A: 迷路タスク中のラットの「ランプニューロン」の発火率
1つ目の急落:バナナ風味のペレットをあげたとき
2つ目の小さな急落:味のないペレットをあげたとき
なぜか美味しくないという報酬予測誤差が発生?yosider.icon
匂いがしなくて美味しくなさそうだと思った?yosider.icon
B: 線形軌道タスクでの単一critic neuronの発火率
破線はバイアス項$ -V_0/\nu
global TD error signal→ドーパミン,黒質緻密部
ドーパミン作動性ニューロンは長いTD-likeな活動パターンを示す (Dopamine neurons report an error in the temporal prediction of reward during learning)
ただしTD誤差は負の値も取りうる
$ \delta = (Dopamin濃度)$ -bと考えればよい?(b: DA濃度のbaseline)
実際,dopamin濃度と可塑性の対応もそんな感じ (Dopamine-dependent plasticity of corticostriatal synapses)
高濃度+高周波刺激→LTP
低濃度→LTD
baseline濃度→変化なし
セロトニンが負のTD誤差の役割?
実験的には確認できていない
Activation of dorsal raphe serotonin neurons underlies waiting for delayed rewards
pre-before-postの可塑性の符号が反転しうるという結果もある
Dopamine reverses the depression of rat corticostriatal synapses which normally follows high-frequency stimulation of cortex in vitro
Dopamine-dependent plasticity of corticostriatal synapses
eligibility traceのメカニズム
実験的な証拠は不足
シナプスのタグ付けモデル
Synaptic tagging and long-term potentiation
Tag-trigger-consolidation: A model of early and late long-term-potentiation and depression
スパイクによる実装
加算/減算はニューロン群への興奮/抑制の同時入力により実行できる
導関数は,興奮性出力と,同じ信号による遅延した抑制性出力により可能
$ \dot{V}(t) \propto V(t+\Delta t)-V(t)
https://gyazo.com/32c8098281cd8c1f9781f08c58b55f4b
spike-basedな先行研究
A spiking neural network model of an actor-critic learning agent
離散的な状態・行動
Spike-based reinforcement learning in continuous state and action space: When policy gradient methods fail
価値関数を使っておらず,TD学習していない
Limitation
場所細胞の個数に対する次元の呪い
rewardにうまく関連した低次元多様体上にtuningする機構とか
実際、場所細胞の表現は、標準の教師なしHebb則を使用して視覚入力から学習可能
Spatial cognition and neuro-mimetic navigation: a model of hippocampal place cell activity
Robust self-localisation and navigation based on hippocampal place cells
Is there a geometric module for spatial orientation? Insights from a rodent navigation model
Reinforcement Learning Using a Continuous Time Actor-Critic Framework with Spiking Neurons
Nicolas Frémaux, Henning Sprekeler, Wulfram Gerstner
PLoS Comput Biol.., Published: April 11, 2013
https://doi.org/10.1371/journal.pcbi.1003024
#gated-hebbian