Reinforcement Learning Using a Continuous Time Actor-Critic Framework with Spiking Neurons

価値関数$ V^{\pi}(\mathrm{x}(t)):=\left\langle\int_{t}^{\infty} r\left(\mathrm{x}^{\pi}(s), \mathrm{a}^{\pi}(s)\right) e^{-\frac{(s-t)}{\tau_{r}}} \mathrm{d} s\right\rangle_{\mathrm{x}^{\pi}, \mathrm{a}^{\pi}}

価値関数モデル$ Vのパラメータを$ \mathbf{w}とすると$ \dot{\mathbf{w}} = \eta \delta(t) \nabla_{\mathrm{w}} V(\mathbf{x}(t))

$ \delta(t):=\dot{V}(\mathbf{x}(t))-\frac{1}{\tau_{r}} V(\mathbf{x}(t))+r(\mathbf{x}(t), \mathbf{a}(t))

Spiking Neuron Critic

critic：$ V(\mathbf{x}(t)):= \nu \rho(t)+V_{0}

$ \rho(t)：critic neuronの発火率

$ V_0：発火のない状態での価値

$ \nu：scaling factor, 単位は (報酬の単位)*(時間)

critic neuron$ iの発火率：$ \rho_{i}(t)=\int_{-\infty}^{\infty} Y(s) \kappa(t-s) \mathrm{d} s \equiv(Y \circ \kappa)(t)

$ Y(t)=\sum_{t \in \mathcal{F}} \delta_{D}\left(t-t^{f}\right)：スパイク列

$ \mathcal{F}：ニューロン$ iの発火時刻の集合，$ \delta_{D}：ディラックのデルタ関数

$ \kappa(t)：カーネル関数

発火率$ \left<Y\right>を計算したいが，統計平均はオンラインに計算できないので，フィルタ付きの時間平均を用いた

$ \dot{\rho}_{i}(t)=\left(Y_{i} \circ \dot{\kappa}\right)(t)で簡単

独立なニューロンを多数用意すれば統計平均を母集団平均に置き換えることもできる

ここではフィルタつき時間平均のさらに母集団平均を使用

$ \rho(t) =\frac{1}{N_{\text {critic}}} \sum_{i=1}^{N_{\text {critic}}} \rho_{i}(t)

$ N_{critic}=100個のcritic neuronを用意

カーネル関数：$ \kappa(t):=\frac{e^{\frac{-t}{\tau_{\kappa}}}-e^{\frac{-t}{v_{\kappa}}}}{\tau_{\kappa}-v_{\kappa}}

時定数$ v_k=50\mathrm{ms}で増加し，時定数$ \tau_\kappa=200\mathrm{ms}で0に減衰

学習則

$ \delta(t)=\frac{\nu}{N_{\text {critic}}} \sum_{i=1}^{N_{\text {critic}}}\left(Y_{i} \circ \left[\dot{\kappa}-\frac{\kappa}{\tau_{r}}\right]\right)(t)-\frac{V_{0}}{\tau_{r}}+r(\mathbf{x}(t), \mathbf{a}(t))

$ \dot{w}_{i j}=\eta \delta(t) \frac{\partial V(\mathbf{x}(t))}{\partial w_{i j}}=\tilde{\eta} \delta(t)\left(\left[Y_{i} \cdot\left(X^{\hat{t}_i}_j \circ \varepsilon\right)\right] \circ \frac{\kappa}{\tau_{r}}\right)(t)

$ \epsilon：EPSPの時間幅

$ X^{\hat{t}_i}_j：presynaptic neuron$ jのスパイク列(neuron$ iの最後の発火時刻$ \hat{t}_i以降)

$ \tilde{\eta}=\frac{\eta v}{N_{\text {critic}} \Delta u}

TD誤差$ \delta(t)はneuronによらないglobal factor

2つ目のtermはneuron依存，Hebb則の形をしている

価値に対するneuronの貢献度(責任)を反映．これに応じ強化を受ける

TD誤差 * Hebbian LTPの形 → この学習則をTD-LTPと呼ぶ

https://gyazo.com/e2cbc16d284282809c416e26c71a4ac3

reward-modulated STDP(R-STDP)との類似

$ \dot{w}_{ij} = d(t) * \mathrm{STDP}(pre, post)

$ d(t) = r(t) - b, $ b: baseline

STDPの情報は，指数的に減衰する，0.1~0.5sec程度のsynapse-specificなmemory (eligibility trace)にストアされ，globalなsuccess signal$ d(t)が送られてきたときだけ結合に反映される

$ bは報酬の平均値に一致しなければならない：実際には困難

$ d(t)の代わりに$ \delta(t)を使うほうが自然：TD-STDP

同じ報酬予測誤差として働く

上述のTD-LTPでは，post-before-preの発火順序は学習時に無視されていたが，TD-STDPの場合は結合強度の減衰をもたらす

海馬では，細胞外ドーパミン濃度の上昇がpre-before-postを強化する一方でpost-before-preを反転させる→post-before-preは報酬学習には重要でない？

https://gyazo.com/ea4b4a7524c27ab1b75b69fb85661ee3

Gain in sensitivity and loss in temporal contrast of STDP by dopaminergic modulation at hippocampal synapses

線形軌道におけるcriticのテスト

https://gyazo.com/1e805e3004e82b578ecbba93e13c18e5

上のnavigation taskでpolicyを固定($ N_{critic}=20)

C: 価値関数の変化

$ t - t_r: 報酬が与えられる時刻$ t_rまでの時間

試行を重ねる(青→赤)につれ，理論値(灰色の破線)に近づく

黒線：収束値

$ t=t_rから徐々に価値が逆伝播している

伝播速度はカーネル$ \kappaの形状に依存

eligibility traceの役割を果たす：pre-before-postの発火を記録し，減衰しない内にglobal signalが来たら結合に反映する

D: TD誤差の変化

学習が成功しているにもかかわらず明確な逆伝播が見られない

速いノイズが支配的で逆伝播をマスクしている？

生体で逆伝播信号が観察されないことを説明できる？

TD-STDPでも同様に学習可能

Spiking Neuron Actor

https://gyazo.com/d39c5d5c3ae1ae8bf8fad3ecbc33e2a8

$ N_{actor}=180個のニューロンがそれぞれ異なる運動方向をコードする

場所細胞から入力を受け取る

フィルタリングして合計したベクトルを出力とする

B: winner-take-all機構：自身とtuningが類似したニューロンを励起し，他は抑制する

C, D: 成功した試行におけるactor neuronの発火とエージェントの軌道

actor neuronもcritic neuronと同じ学習則で学習する

$ \delta(t)を通してactorとcriticが相互作用

Navigation task with actor-critic

https://gyazo.com/95cbafda99c21ed676dc33159e43576b

4パターンの初期位置，ゴール・壁・障害物で報酬，50sec報酬なしでタイムアウト

初期(B, 青)は壁や障害物の回避に費やし，ランダムに成功した軌道を徐々に強化(B, 赤)

図B,Cのエージェントでは，図Aの「北」の初期値からゴールに到達→東と西から北へ到達→南から西へ到達，という順序で学習．南から東へは到達しなかった．

図D: TD-STDPはTD-LTPよりわずかに悪かった

Acrobot task

https://gyazo.com/751f88f8d70fb17695fab94e57aaf8a7

ジョイントに(弱い)トルクを加えて目標の高さまで振り上げるタスク

状態4次元$ (\theta_1, \theta_2, \dot{\theta_1}, \dot{\theta_2})，行動1次元$ F

4次元空間上の場所細胞が入力をコード

場所細胞の数は指数関数的に増加，より高次元では別の方法が必要

図B: 目標に到達するまでの時間(青: best, 影: 25-75%, 赤: 直接探索), 100secで時間切れ

図C: 軌道例

タイミングの合った制御が必要

時間スケールをモデルに合わせて100msオーダーにした→chaoticで制御不可の場合も

Cartpole task

https://gyazo.com/43b16fddfbe3c83c6cdf5f7ae7f8ff95

状態4次元$ (x, v, \theta, \dot{\theta})，行動1次元$ F

報酬率 $ r(t) = 50 \cos(\theta)

成功：$ |\theta|<\pi/4 for 10 sec after $ t=20sec

失敗：$ |x|>2.5or $ |\theta|>5\pi or $ t > 20sec

今までのタスクでは状態空間の特定の領域に到達するだけだったが，cartpoleでは到達した後に維持することが必要

図C：初期に急速に学習した後，遅いスケールで学習

学習率を可変にした．直近の平均報酬が低いときは学習率を大きくし，高いときは小さくすることで細かい制御を学習可能

non-SNN Actor-Critirでは ~2750trial必要，SNNのほうが若干遅い

actorの発火ノイズが直立状態を保つ妨げになっていた．これが一因？

Discussion

Biological Plausibility

場所細胞→海馬

actor→運動皮質，運動前皮質の古典的なモデル

Primate motor cortex and free arm movements to visual targets in three-dimensional space

critic→腹側線条体の"ramp neuron" (Theta phase precession in rat ventral striatum links place and reward information)

目標に近づくにつれ徐々に活性化する→価値関数を表現？

https://gyazo.com/9e3ddb197fc522aa90f93eb4e127ced1

A: 迷路タスク中のラットの「ランプニューロン」の発火率

1つ目の急落：バナナ風味のペレットをあげたとき

2つ目の小さな急落：味のないペレットをあげたとき

なぜか美味しくないという報酬予測誤差が発生？yosider.icon

匂いがしなくて美味しくなさそうだと思った？yosider.icon

B: 線形軌道タスクでの単一critic neuronの発火率

破線はバイアス項$ -V_0/\nu

global TD error signal→ドーパミン，黒質緻密部

ドーパミン作動性ニューロンは長いTD-likeな活動パターンを示す (Dopamine neurons report an error in the temporal prediction of reward during learning)

ただしTD誤差は負の値も取りうる

$ \delta = (Dopamin濃度)$ -bと考えればよい？(b: DA濃度のbaseline)

実際，dopamin濃度と可塑性の対応もそんな感じ (Dopamine-dependent plasticity of corticostriatal synapses)

高濃度+高周波刺激→LTP

低濃度→LTD

baseline濃度→変化なし

セロトニンが負のTD誤差の役割？

実験的には確認できていない

Activation of dorsal raphe serotonin neurons underlies waiting for delayed rewards

pre-before-postの可塑性の符号が反転しうるという結果もある

Dopamine reverses the depression of rat corticostriatal synapses which normally follows high-frequency stimulation of cortex in vitro

Dopamine-dependent plasticity of corticostriatal synapses

eligibility traceのメカニズム

実験的な証拠は不足

シナプスのタグ付けモデル

Synaptic tagging and long-term potentiation

Tag-trigger-consolidation: A model of early and late long-term-potentiation and depression

スパイクによる実装

加算/減算はニューロン群への興奮/抑制の同時入力により実行できる

導関数は，興奮性出力と，同じ信号による遅延した抑制性出力により可能

$ \dot{V}(t) \propto V(t+\Delta t)-V(t)

https://gyazo.com/32c8098281cd8c1f9781f08c58b55f4b

spike-basedな先行研究

A spiking neural network model of an actor-critic learning agent

離散的な状態・行動

Spike-based reinforcement learning in continuous state and action space: When policy gradient methods fail

価値関数を使っておらず，TD学習していない

Limitation

場所細胞の個数に対する次元の呪い

rewardにうまく関連した低次元多様体上にtuningする機構とか

実際、場所細胞の表現は、標準の教師なしHebb則を使用して視覚入力から学習可能

Spatial cognition and neuro-mimetic navigation: a model of hippocampal place cell activity

Robust self-localisation and navigation based on hippocampal place cells

Is there a geometric module for spatial orientation? Insights from a rodent navigation model

Reinforcement Learning Using a Continuous Time Actor-Critic Framework with Spiking Neurons

Nicolas Frémaux, Henning Sprekeler, Wulfram Gerstner

PLoS Comput Biol.., Published: April 11, 2013

https://doi.org/10.1371/journal.pcbi.1003024

#gated-hebbian