勾配降下法
from
SGD
$ w \leftarrow w-\eta \frac{\partial L}{\partial w}
$ \eta
は
学習率
最初は大きめにとって、学習が進むにつれて小さくしていく事が多い
課題
計算コストが大きい
大きなデータになると
誤差逆伝播法
を使うと、計算量が増える
すべてのデータに対して平均誤差の勾配を求める必要があるため
極小値から抜け出せなくなる
全体で見たら最小ではないが、部分的に見たら最小な点に入ると抜け出せない
ので、精度が上がらない
↑これらを解決するために
SGD
を用いる