最近傍法 - bluemo-public

最近傍法

情報科学の達人.iconパターン認識 #機械学習

入力から一番近いデータ（「辞書パターン」）のクラスに識別

非常にシンプル

考える事

どのような特徴量を用いるか

クラスが異なると大きく違うのが嬉しい

クラスが同じならあまり変化がないのが嬉しい

次元数が高すぎると、かえって性能劣化することも（「次元の呪い」）

（上二つは、相反することも多い）

どのように距離を測るか

ユークリッド距離, マンハッタン距離 (一般化して$ L_p距離)

ベクトルの特定の方向に重みを持たせたり（ex: 二次元ベクトルの縦方向だけ倍にするとか）

等方的距離でいいのか?

極論を言えば、パターン認識はパターン間の距離の学問

距離はいろいろな（ほぼ無限の）定義ができる

辞書パターンをどう準備するか

各クラスの重心点のみ?

境界部の点のみ?

全部のデーターを使う? (効率に問題あり)

亜種