ResNet
https://www.youtube.com/watch?v=WslQrSO94qE
この論文に出てきた話
浅いネットワークのほうが性能がいいという現象のこと
18layerと34layerで比較して、前者のほうがよかった
テストデータだけでなく、訓練データに置いても浅いほうが性能が良かった
過学習とかではないことだった
パラメータ数が多いから、後者のほうがfitするはずなのに
原因
学習の最適化の効率が悪い
最適化もDLの本質ということ
もしも、18レイヤーと34レイヤーで、差分の後半が恒等写像になったら?
34レイヤーには18レイヤーを内包してる
でもこれができてないということは、恒等写像が学習できてないということ
残差接続
shortcut connection