機械学習の検証方法
データーに偏りがある場合は、少ない方で適合率と再現率を測る
R^2を使う
R^2値は、モデルの正確さを表す(回帰only)
0~1
1が完璧に適合(恐らく過学習)
データセットとテストセットの値の差が大きい = よくない
https://gyazo.com/18b926f5c72f2a4d5335a647d5142b3c
交差検証
単純に2:8で分割するのではなく、それを何パターンも試す
状況に応じて、いろんな分割方法がある
特定のグループを全てテストケースに入れたいときとか
膨大なデーターがある時に、全部は使わずに一部だけとるとか
本の5.1に色々書いてある
精度の数字を比べるだけでは足りない、実際の用途に応じてフレキシブルに
例: 医療において偽陽性より偽陰性の方がやばいのは明らか、二つのミスを同じ重みで扱わないようにする
#教師あり学習
#機械学習
#Pythonで始める機械学習