9fc872a2a6e4022
http://nhiro.org.s3.amazonaws.com/d/6/d674cf069fafe41d63da1964bf1065c6.jpg https://gyazo.com/d674cf069fafe41d63da1964bf1065c6
(OCR text)
単位合わせのメリット
単位のあってないSGDでは関数fの最適化と
を単に10倍した関数の最適化とで
振る舞いが違う(後者が10倍大きい幅で更新する)
この差を吸収するのが 「学習率」なる値で
後者の関数の最適化において
更新幅が大きくなりすぎないようにするためには
10倍小さい学習率にする必要がある。
Adadeltaではyの単位が影響しないので、この目
的で学習率をチューニングする必要がない
23