Unsupervised neural network models of the ventral visual stream | PNAS
Chengxu Zhuang, Siming Yan, Aran Nayebi, Martin Schrimpf, Michael C. Frank, James J. DiCarlo, and Daniel L. K. Yamins
PNAS January 19, 2021 118 (3) e2014196118
YaminsらはDNNと脳の類似性について研究している方で,これまで,DNNの階層性と脳の階層性が似ていること,脳との類似性とDNNの精度が正に相関することを視聴覚タスクで示してきた.しかしこれらは全て教師あり学習の結果得られた重みに対して解析された結果である.人間は明示的にラベルが与えられることは少ないにもかかわらず,認識能力が成長する.そこで,近年発展してきたDNNの教師なし学習の結果を解析することで脳との類似性を議論している.結論としては画像認識に関して教師なし学習の結果と脳の腹側視覚経路が類似していることを示した.
結果
図1.AutoEncoderやPredNet(predictive codingを利用)よりもSimCLR*1,Local Aggregation*2などの対照学習のほうが物体分類,姿勢推定,位置推定,大きさ推定において精度が高く,大きさ推定に関しては教師あり学習よりも精度が高かった.
https://gyazo.com/6a2cd35602f4ac3242852b54fe819cb2
図2.ImageNetの画像をCNNに入力し,各層のUnitのactivationされた値から同じ画像を見た時のマカクの視覚経路の各領域のニューロンの発火を正則化線形回帰で予測した.V1ニューロンの活動は初期の層で,V4ニューロンの活動は中間層で,ITニューロンの活動は最終層近辺で予測しやすかった.この傾向は特に対照学習の結果で顕著であった.
https://gyazo.com/c21451a8bc38a0f603ea993ec4ee90ee
図3.人間の発達過程と比較するため,SAYCamという幼児(生後6-36カ月)にHead mountカメラを取り付けて得られた動画データセットで学習しても図2と同様.また,Local Aggregationを動画用に拡張したVIEモデルはLocal Aggregationより神経活動の予測精度が有意に向上した(≒より脳と類似した).
https://gyazo.com/bfcde64625368674e596caca042a8d63
図4.人間は発達の過程で,ほとんどは教師なし的に学習するが,まれに親や教師から正解信号を受け取る.これと比較するため少数のラベル付きデータと大多数のラベルなしデータから学習する半教師あり学習の結果と人間のパフォーマンスとの類似性(混同行列の相関)を検討した.Few-Label Cate (半教師) < SimCLRやLocal Aggregationなどの教師なし < Local Label Propagation (LLP,半教師) *3< Mean Teacher (半教師) *4の順に相関が高かった.
https://gyazo.com/7d69cc736cc56234d994602b101189c2
考察
ラベルなしデータに対して学習する手段として,確率的要素に対して一貫したoutputを出す制約,特徴量同士のattractionとrepulsionは生物でもありそう(海馬のパターン分離とパターン補完など).また,幼児の視覚探索のデータを使う辺りも着眼点が面白く参考にしたい.
また,各教師なし学習の初期層のフィルターを見る感じSimCLRやLocal Aggregationはやはり教師ありや視覚野と似ている気がする.(Fig. S7)
https://gyazo.com/356e7e57fe07731e118dca6d31f90624
また高次レイヤーを最も活性化させる画像も趣深い(Fig. S8).
https://gyazo.com/0d91911431df12ccf05c52789de64eda
*1:CNNのoutputの特徴ベクトルが同じinput画像から得られるData Augmentされた画像(クロッピング,色ずれ,ぼかしなど)に対しては距離が小さくなるように,異なるinput画像から得られるData Augmentされた画像に対しては距離が大きくなるように表現学習する.
*2:CNNのoutputの特徴ベクトルが近いもの同士はより近くなるように遠いものはより遠くなるように表現学習する.Yaminsらが提案したこともあり,この論文の中で強調されている.
*3:少量のラベル付きデータの特徴ベクトルの近傍にあるデータに疑似ラベルを伝播させて,教師ありのように学習する.また特徴ベクトルがdropoutのような確率的要素により変わらないようにconsistency lossも加えて学習する.
*4:StudentとTeacherという同じ構造のモデルを独立に学習させる.Teacherの重みは,Studentの重みの学習ステップの中で指数移動平均により更新していく.Studentの重みは,ラベルなしデータの時はTeacherのoutputの特徴ベクトルとの距離,ラベル付きデータの時はTeacherのoutputの特徴ベクトルとの距離とラベル分類のcross entropyの和を最小化するように学習する.