過学習と汎化能力
過学習の定義:統計学や機械学習において、訓練データに対して学習されているが、未知データ(テストデータ)に対しては適合できていない、汎化できていない状態を指す。汎化能力の不足に起因する。
少しわかりにくいので、わかりやすくしていく。
まず、機械学習をして実際のデータに機械学習で得た指標使う際に、「訓練データ」と「未知データ」を用いる。
訓練データ:機械学習でコンピュータ内において指標を作る基となるデータ。
未知データ:機械学習で得た指標を用いる、訓練データとは異なる別種のデータ
そして、機械学習をしていくなかで重要なのが汎化能力である。
汎化能力:訓練データを基に作った指標がどれくらい他の未知データに対しても訓練データの場合と同様の結果を示すことができるのか、という指標の性能
つまり、汎化能力が高いということは、その指標が未知データでも同じ結果が明確に出るということである。
では、最初に述べた過学習の定義から、かみ砕いて説明すると、過学習というのは訓練データを基に作った指標が未知データに対応していないということを指している。
参考サイト:機械学習の天敵「過学習」とは何か? 閲覧日:令和元年12月10日