正則化 - 「機械学習Ⅰ・Ⅱ（副専攻）」学びの素材集

正則化

正則化（Regularization）

過学習を防ぐため、モデルの重みが過剰に大きくならないようにする方法

誤差項（回帰の場合はMSE（回帰における評価指標参照）、分類の場合はクロスエントロピー（回帰から分類へ（ロジスティック回帰）参照）など）に正則化項（ペナルティ項）を加えた評価関数を小さくするように学習する

たとえば「$ MSE + \alpha ・（正則化項）」を小さくするように学習する

この、誤差項と正則化項のバランスを調整するハイパーパラメータ$ \alphaの設定が必要

バイアス誤差と分散誤差で説明した、バイアス誤差と分散誤差のバランスをとることと等価

正則化項を強めると分散誤差が小さくなる（がバイアス誤差が大きくなる）

いくつかの種類がある

L2正則化

重みの二乗和を正則化項とする方法

$ L2: || \bold w||_2^2 = \sum_{j=1}^m w_j^2

とくに、L2正則化を用いた回帰をリッジ回帰（Ridge regression）という

https://gyazo.com/8733092b3bc7cffd88be6a28437c54f6

L1正則化

重みの絶対値の和を正則化項とする方法

$ L1: || \bold w||_1 = \sum_{j=1}^m |w_j|

とくに、L1正則化を用いた回帰をLasso回帰（Least Absolute Shrinkage and Selection Operator）という

多くの特徴量が0になりやすい

これにより特徴量選択を行うことができる（不要な特徴量を削ることができる）

https://gyazo.com/dd664e9ef0255fb08ddc3761ae99a1fc

線形回帰での正則化

線形回帰モデルでは重みを$ \bold w = (\bold X^T \bold X)^{-1} \bold X^T \bold y で解析的に求めることができた（線形回帰モデルの学習参照）

これを$ \bold w = (\bold X^T \bold X + \alpha \bold E)^{-1} \bold X^T \bold y とすることでL2正則化ができる（リッジ回帰になる）

同様に基底関数を用いた線形回帰モデルも、$ \bold w = (\bold \Phi^T \bold \Phi + \alpha \bold E)^{-1} \bold \Phi^T \bold y で正則化できる

多重共線性による行列のランク落ち（つまり逆行列が計算できない）にも対応できる