分類（機械学習） - hiroaki-suzukiのScrapbox

分類（機械学習）

#データ分析

分類

各データがどの種類に属するのかを見ることが目的

各データがいくつかのグループに分類され、細かな違いは無視する

データを分けるように線を引く

例）

犬猫の画像から、その画像が犬か猫か判断する

機械の稼働情報から、正常か異常か判断する

機械学習の分類の予測性能評価

正解率

それぞれを正しい方にいれる

全予測に対する正しい予測の割合

モデルが正確にクラス分類を行った割合を示す指標

正解率 = 正しく分類されたサンプル数 / 全体のサンプル数

正解率は一般的に0から1の範囲で表され、1に近いほどモデルの性能が良い

ただし、データが不均衡な場合や、異なるクラス間の重要度が異なる場合には、正解率だけでは不十分なことがある

scikit-learnの分類モデルのscoreメソッドは、正解率を返すようになっている

適合率（Precision）

いらない物は入れてはいけない

正だと予測したものの内、正解した割合を表す指標

モデルが陽性と予測したサンプルのうち、実際に陽性である割合を示す

偽陽性を減らすことが重要な場合に役立つ

雨予報で表現すると

雨が降ると予測した件数のうち、実際に雨が降った件数の割合

適合率を上げるためには

感覚的には、厳しめに見る感じ

少しでも異なるのであれば、違うと判断する感じ

誤検知がリスクが高い場合に優先する

再現率（Recall）

入れたいものを見逃してはいけない

実際に正だった中で、モデルが正と予測できた割合

実際に陽性のサンプルのうち、モデルが正しく陽性と予測した割合を示す

偽陰性を減らすことが重要な場合に役立つ

雨予報で表現すると

実際に雨が降った件数のうち、雨が降ると予測した件数の割合

再現率を上げるには

感覚的には緩めに見る感じ

少しぐらい異なっていても、正だと判断する感じ

検知漏れがリスクが高い場合に優先する

例えば、火災報知器などは、実際に火災が起きているのに、検知されない方が問題

火災が起きていないのに検知される分には、大きなリスクにはならない

F1スコア:（f1-score）

適合率と再現率の平均（調和平均）

バランスを取った評価指標

どちらも大事という場合に利用する

正解率は、種類別には予測性能を評価できない

0から1の範囲で表され、1に近いほど性能が良い

適合率と再現率について

適合率と再現率は、トレードオフの関係

常に、どちらがどうだったら良いという訳ではない

適合率を重視すべきケースと再現率を重視すべきケースがある

例えば、火災報知器を考えた場合に、以下のケースを考える

火事ではないのに、間違って警報音がなる

本当に火が出て煙が出ているのに、警報音がならない

本当の火事なのに警報音がならない方が困る

つまり、火事であることに対する再現率（当たる確率）が重要になってくる

アルゴリズム

ロジスティック回帰

SVM（サポートベクターマシン）

ランダムフォレスト

k-NN（k近傍法）

アダブースト