機械学習の特徴的な現象
過学習
過学習とは統計学や機械学習において、訓練データに対して学習されているが、未知データ(テストデータ)に対しては適合できていない、汎化できていない状態を指す。汎化能力の不足に起因する。
https://gyazo.com/9c0d6a6a0444e1ac6545964915dd1826
画像引用元:https://ai-std.standard2017.com/?src=yahoo&yclid=YSS.1001027424.EAIaIQobChMIj_Ck-LPU7QIVz66WCh2agw9UEAAYASAAEgL_QvD_BwE
原因
訓練データの量が足りない、あるいは限定的である
未知データに対して、作成したモデルが複雑すぎる
過学習が起こるメカニズムとしては、訓練データのためのモデルが作成される→それを未知のデータに当てはめる→モデルは訓練データのためのものであるため、未知のデータに対して同水準の予測精度を示すことができない、というように考えられる。
対策
モデルは未知のデータを用いた予測のために作成する
理想的な訓練データと未知のデータを十分に用意する
今あるデータを分割して、一部を学習用に、残りをテスト用に回すことで、限られたデータの中で解析の妥当性を検証する方法である「交差検証」を行う
引用元:https://ailearn.biz/learn/20171119349
汎化能力
機械学習において、未知のデータに対しても正しく対応できることができる能力
#テーマ4