kNN
K-Nearest Neighbors, KNN
例
https://gyazo.com/a293250af9463b7df7f999a4dcb55f8c https://www.youtube.com/watch?v=-TA7orMJuJ4
動画でイメージわかりやすいmrsekut.icon
黒円を、赤と青のどちらに分類するかを考えている
(k=5のとき) 黒丸と他の全ての距離を計算し、上位5つを見て、赤のほうが多いので、赤に分類する
アルゴリズム
距離の計算
テストデータポイントと、全てのトレーニングデータポイントとの距離を計算する
「距離」にも色々ある
K個の最近傍を選ぶ
計算した距離に基づいて、最も近いK個のトレーニングデータポイントを選ぶ
ラベルや値の決定
(分類)選ばれたK個の近傍の中で最も多く出現するラベルを、テストデータポイントのラベルとする
(回帰)選ばれたK個の近傍のラベルの平均値を、テストデータポイントの予測値とする
Kの選び方
Kの値は、モデルの性能に影響する
一般的には、
Kが小さいとモデルがノイズに敏感になる
たまたま近くにいただけのデータに影響を受ける
Kが大きすぎるとモデルが過度にスムーズになり、重要なパターンを見逃してしまう可能性がある
分散が小さく、バイアスが大きくなる