過学習
#テーマ4
過学習とは
か‐がくしゅう〔クワガクシフ〕【過学習】 パターン認識などの機械学習において、過度の教師あり学習を行った場合、未学習の問いに対して正しく答えを出力できなくなる現象。学習のしすぎによって判断の基準が厳しくなるため、少しでもパターンが異なると誤った答えを出力してしまうことを指す。出典:小学館,デジタル大辞泉
偏ったデータにまで必要以上に対応してしまい、手元のデータにはぴったりと合うが未知のデータには合わないモデルをつくってしまうこと。汎化能力の向上を妨げる。
過学習に陥っているモデルでは、正しい予測ができない。
過学習を避けるには
データを学習データと検証データにわけ、学習データからモデルをつくり検証データでそのモデルを確かめる。交差検証。
ホールドアウト検証
K-分割交差検証
leave-one-out 交差検証
あまりにも多くの変数を用いて作った複雑なモデルは評価が下がる方法を用いる。
AIC(赤池情報量基準)
BIC(ベイズ情報量基準)
正則化をする。
L1正則化
L2正則化
参考サイト
人工知能/AIならAILearn(あいらーん),「過学習(過剰適合)」とは?原因や回避方法をわかりやすく解説!https://ailearn.biz/learn/20171119349 閲覧日2020/12/23
スタビジ,過学習とは?機械学習を実装する際に過学習を回避する方法をまとめていく!,https://toukei-lab.com/over-fitting ,閲覧日2020/12/23