SGD
一つ一つの学習データで得られる損失関数の形が微妙に異なることを利用し、データの順番を入れ替えながらランダムに勾配降下法適用、局所最適解に収束する確率を下げる。
複雑な非凸関数には弱い。また学習率の設定が難しく収束が遅い。
Momentum SGD
SGDに 慣性の概念を加えたアルゴリズム。勾配を降りている方向に勢いを持つようになり収束が速くなる。