最近傍法
情報科学の達人.iconパターン認識 #機械学習
入力から一番近いデータ(「辞書パターン」)のクラスに識別
非常にシンプル
考える事
どのような特徴量を用いるか
クラスが異なると大きく違うのが嬉しい
クラスが同じならあまり変化がないのが嬉しい
次元数が高すぎると、かえって性能劣化することも(「次元の呪い」)
(上二つは、相反することも多い)
どのように距離を測るか
ユークリッド距離, マンハッタン距離 (一般化して$ L_p距離)
ベクトルの特定の方向に重みを持たせたり(ex: 二次元ベクトルの縦方向だけ倍にするとか)
等方的距離でいいのか?
極論を言えば、パターン認識はパターン間の距離の学問
距離はいろいろな(ほぼ無限の)定義ができる
辞書パターンをどう準備するか
各クラスの重心点のみ?
境界部の点のみ?
全部のデーターを使う? (効率に問題あり)
亜種
k近傍法