ResNet
https://openaccess.thecvf.com/content_cvpr_2016/papers/He_Deep_Residual_Learning_CVPR_2016_paper.pdf
https://www.youtube.com/watch?v=WslQrSO94qE
ILSVRC-2015
degradation
この論文に出てきた話
Deep Residual Learning for Image Recognition
浅いネットワークのほうが性能がいいという現象のこと
18layerと34layerで比較して、前者のほうがよかった
テストデータだけでなく、訓練データに置いても浅いほうが性能が良かった
過学習とかではないことだった
パラメータ数が多いから、後者のほうがfitするはずなのに
原因
学習の最適化の効率が悪い
最適化もDLの本質ということ
もしも、18レイヤーと34レイヤーで、差分の後半が恒等写像になったら?
34レイヤーには18レイヤーを内包してる
でもこれができてないということは、恒等写像が学習できてないということ
じゃあ値を足して恒等写像に近づけちゃえ、というのがresidual learning
残差接続
shortcut connection
residual connectionという
https://www.slideshare.net/KotaNagasato/resnet-82940994