GeLU
要約
シグモイド関数よりも,高速で収束性能の良い,ReLU型関数による活性化.
Dropout(活性値のランダムな0化)による,モデルの正則化効果.
RNN向け正則化手法の Zoneout のような「入力へランダムに1を掛けることによる正則化」の効果.
アイデア
決定論的なReLUを確率論的な「0 or x 選択」に差し替える
⇒ ランダム正則化
入力 $ xに ベルヌーイ分布を掛ける
$ GELU(x) = x \cdot P (X \le x) X \sim \mathcal{N}(0, 1)
サンプリングはコストが高いので, 関数を近似
https://gyazo.com/b8637bdb4feac868d1aac342f6b61b6f
todo
https://cvml-expertguide.net/terms/dl/layers/activation-function/relu-like-activation/relu/