9fc872a2a6e4014
http://nhiro.org.s3.amazonaws.com/a/e/aebc7e86e000473659294b69b813be0e.jpg https://gyazo.com/aebc7e86e000473659294b69b813be0e
(OCR text)
15
Adagrad
ここまでの話はいったん全部忘れて
「そもそも学習率がどの軸でも同じって
おかしいんじゃないの?」
特に確率的勾配降下法と組み合わせて
使うことを考えた場合
「まれにしか観測されない特徴」
,「その軸方向の勾配が多くの場合ゼロ」
まれな特徴が観測されたときには
その軸方向には大きく学習したい
LO