勾配降下法の更新式
from
なぜ適切な学習率の設定が必要なのか理論から考える
勾配降下法の更新式
式:
$ w_{t+i} = w_t - \eta \nabla L(w_t)
$ w_t
: 時刻tにおけるパラメータベクトル
$ \eta
: 学習率
$ \nabla L(w_t)
: 損失関数の勾配ベクトル
$ \nabla
: ベクトルの微分?
$ L(w_t)
: あるパラメータに対する損失関数
$ \eta
はパラメータの更新の方向と大きさを操作すると分かる