過学習
https://scrapbox.io/files/64c5a853bb71df001b2e2083.png
過学習とは、機械学習のプロセスでよく起こる現象で、モデルが訓練データに過度に適応してしまい、新しいデータ(テストデータ)に対してはうまく機能しなくなってしまう状況を指します。 機械学習においては、データから何かを予測するための「モデル」を作ります。このモデルには、予測を行うためのパラメータ(要素)があり、これらのパラメータを調整して、データに最適に合うようにします。しかし、モデルがデータを詳細に表現する能力が高すぎると、つまりパラメータが多すぎると、モデルは訓練データに対して非常に良い性能を発揮しますが、新しいデータに対してはうまく機能しなくなる可能性があります。これが「過学習」です。
過学習は、データが大量にあれば防ぐことができます。しかし、訓練データが十分でない場合や、モデルがデータの複雑さに対して過度に複雑である場合には過学習が起きやすくなります。
これを防ぐ一つの方法が「正則化」です。正則化は、モデルが訓練データに適合すると同時に、モデルの複雑さを制御する方法です。これにより、モデルが訓練データに過度に適合するのを防ぎ、よりシンプルなモデルが選ばれるようになります。特に、多くの特徴量(次元)を持つデータを扱う場合、モデルの複雑さが増すため、正則化が重要となります。
汎化の対義語であり、モデルやアルゴリズムが局所最適を導きやすいような強いバイアスを持っている状態を指す。 過学習が起きる原因として
出典