Towards Stability of Parameter-free Optimization
Motivation 選んだ理由
パラメタのチューニング大変
パラメタを変えて実験する計算コスト
入力・構造を変える際、変なパラメタで試してしまっていると効果が見えなくなるかもしれないが、キリが無い
AutoML などもあるが、計算コストは必要
Optimizer の論文読んでなかったので、試しに
Summary どんなもの?
ハイパーパラメータの調整が不要な ADAMG (Adam with the golden step size) を提案
Golden step size は $ \eta_{gold} = \lim_{t \rightarrow \frac{1}{4}^-} x^t ここで $ x = v_K (※勾配2乗ノルムの累積和を指すが、ADAM では勾配の2次モーメントで置き換えられる)
$ \lim_{t \rightarrow \frac{1}{4}^-} は $ t を $ \frac{1}{4} を※負の方向から極限をとるの意味 ($ tの値域が $ (-\frac{1}{2}, \frac{1}{4})のため)
細かいところをひとまず置いておくとこれだけ
Golden step size をADAMの$ v_t の係数に使う
(おそらく)理論的な保証があるわけではなくAdaGrad からの類推でADAMを改良している
Contribution 先行研究と比べてどこがすごい?
計算量が小さく、チューニング不要なADAMの亜種はこれまでなかった
実験結果を見る限り、ベストではないかもしれないが実用性は高そう
Method 技術や手法のキモはどこ?(※細かく理解する必要はなさそう)
仮定 (SGD の収束を保証する仮定と同じ)
仮定3.1 関数(モデル)がパラメタ $ x_1, x_2 についてリプシッツ連続
連続で微分可能であることよりも一定強めの仮定という理解でよさそう
仮定3.2 アフィンノイズ分散
任意のパラメタ $ x_k について、確率的勾配(の2乗ノルム)の期待値が真の勾配(の2乗ノルム)をアフィン変換したもので抑えられる
確率的勾配が発散しない、確率的勾配が真の値と全く無関係でない、ことを保証する。
(実際には変なデータが混ざったり、複雑なモデルの勾配が発散することはよくあるのでやや強めの仮定ともいえるが、安定した学習ができている範囲内では満たしていると思ってよさそう)
議論の概略
ADAM の前に AdaGrad-Norm について考える
AdaGrad-Norm はそもそも固定ステップ幅 $ eta についてはチューニング不要で収束することが保証されている
$ \eta が固定の場合 と、それまでの勾配の総和$ x にもとづいて $ \eta = x^t とする場合で、勾配の期待値を比較し、期待値のより大きい(より収束が早いことが期待される) $ \eta = \lim_{t\rightarrow \frac{1}{4}^-}x^t を採用
収束の条件として $ t \in \left(-\frac{1}{2}, \frac{1}{4} \right) という条件を導出し、その中で期待値の最も高い $ t=1/4 を選択している
同じ考え方を ADAM にも適用する
ステップサイズを直接決めるのではなく、モーメントと同様に移動平均の形で計算し、1次モーメントの係数にしている
一般的な戦略として(?)$ 1/\sqrt{k}を最終的なステップサイズにかけている
通常のADAM
https://gyazo.com/7a1dc49455fbdbb4a93f84b6ebf9a952
ADAMG
https://gyazo.com/12a38a499238c638588565ba16ab528b
順序が違って見にくいが、差分は灰色の箇所
モーメンタムの更新に二次モーメントから計算される係数(golden step size)がつく
最終的な更新時の係数 α (ステップサイズ、ハイパーパラメタ)が置き換わる
※ $ min(\eta_k, 1/\sqrt{k})は piratical practice と呼ばれる、一般的な戦略(検索してもでてこない?)
AdaGrad への適用までは理論的で証明もついているが、ADAMへの Golden step size 導入はあまり議論なくソイヤでやっているように見える
現状、ADAMは上記の仮定では収束することが証明されていない様子なので、理論的には繋がっていなさそう
AdaGrad でうまく収束するステップサイズが、ADAMでタスクによらず良い成績をだすステップサイズになるのか?
Experiments どうやって有効だと検証した?
Golden step size がADAM にとっても最適という理論的な保証の代わりに、実験的に有効性を検証している
https://gyazo.com/807a56b49e7b35abf9c62e4c105ed19d
✗がついているのは、ベストなパラメータにくらべ5%以上のパフォーマンス悪化があるもの
ADAMG はベストなパラメータに近い〜超える性能を安定して発揮している
収束速度はベストなパラメータに近い
GOG は AdaGrad-Norm 版
画像系のタスクは省略
Discussion 議論はある?
ADAMでの理論面はまだ整っていないものの、実験的には幅広いタスクでうまく動いているように見える
実は、画像ではうまく行っていないタスクが残っている