勾配降下法の更新式
from なぜ適切な学習率の設定が必要なのか理論から考える
勾配降下法の更新式
式: $ w_{t+i} = w_t - \eta \nabla L(w_t)
$ w_t: 時刻tにおけるパラメータベクトル
$ \eta: 学習率
$ \nabla L(w_t) : 損失関数の勾配ベクトル
$ \nabla: ベクトルの微分?
$ L(w_t): あるパラメータに対する損失関数
$ \etaはパラメータの更新の方向と大きさを操作すると分かる