9fc872a2a6e4029
http://nhiro.org.s3.amazonaws.com/d/4/d43e3556a4ad3c18065d69d79bb61299.jpg https://gyazo.com/d43e3556a4ad3c18065d69d79bb61299
(OCR text)
30
Adam筆者らによる解釈
なぜNesterovがAdagradよりよいのか?
CNNの実験では2次のモーメントが
ゼロにvanish
2次のモーメントしか使ってないAdagradは無力
1次のモーメントが収束の高速化に寄与したので
はないか。
一方1次のモーメントを使っているNesterovより
もさらに性能が良いのは「軸こごとの学習率」が効
いているのではないか