分類(機械学習)
分類
各データがどの種類に属するのかを見ることが目的
各データがいくつかのグループに分類され、細かな違いは無視する
データを分けるように線を引く
例)
犬猫の画像から、その画像が犬か猫か判断する
機械の稼働情報から、正常か異常か判断する
機械学習の分類の予測性能評価
正解率
それぞれを正しい方にいれる
全予測に対する正しい予測の割合
モデルが正確にクラス分類を行った割合を示す指標
正解率 = 正しく分類されたサンプル数 / 全体のサンプル数
正解率は一般的に0から1の範囲で表され、1に近いほどモデルの性能が良い
ただし、データが不均衡な場合や、異なるクラス間の重要度が異なる場合には、正解率だけでは不十分なことがある
scikit-learnの分類モデルのscoreメソッドは、正解率を返すようになっている
適合率(Precision)
いらない物は入れてはいけない
正だと予測したものの内、正解した割合を表す指標
モデルが陽性と予測したサンプルのうち、実際に陽性である割合を示す
偽陽性を減らすことが重要な場合に役立つ
雨予報で表現すると
雨が降ると予測した件数のうち、実際に雨が降った件数の割合
適合率を上げるためには
感覚的には、厳しめに見る感じ
少しでも異なるのであれば、違うと判断する感じ
誤検知がリスクが高い場合に優先する
再現率(Recall)
入れたいものを見逃してはいけない
実際に正だった中で、モデルが正と予測できた割合
実際に陽性のサンプルのうち、モデルが正しく陽性と予測した割合を示す
偽陰性を減らすことが重要な場合に役立つ
雨予報で表現すると
実際に雨が降った件数のうち、雨が降ると予測した件数の割合
再現率を上げるには
感覚的には緩めに見る感じ
少しぐらい異なっていても、正だと判断する感じ
検知漏れがリスクが高い場合に優先する
例えば、火災報知器などは、実際に火災が起きているのに、検知されない方が問題
火災が起きていないのに検知される分には、大きなリスクにはならない
F1スコア:(f1-score)
適合率と再現率の平均(調和平均)
バランスを取った評価指標
どちらも大事という場合に利用する
正解率は、種類別には予測性能を評価できない
0から1の範囲で表され、1に近いほど性能が良い
適合率と再現率について
適合率と再現率は、トレードオフの関係
常に、どちらがどうだったら良いという訳ではない
適合率を重視すべきケースと再現率を重視すべきケースがある
例えば、火災報知器を考えた場合に、以下のケースを考える
火事ではないのに、間違って警報音がなる
本当に火が出て煙が出ているのに、警報音がならない
本当の火事なのに警報音がならない方が困る
つまり、火事であることに対する再現率(当たる確率)が重要になってくる
アルゴリズム