k近傍法
最も単純な機械学習アルゴリズムの1つと言われている。
例としてりんごと梨を見分けるケースをつかう
k近傍法では
データを比較する際にデータ同士の類似度を計算するため
各データの情報をベクトルとして表現する。
2. 分類したいデータと学習データとの類似度を計算する 次に分類したいデータとすべての学習データとの類似度を計算する。
ユークリッド距離は私たち外いわゆる距離と言われ思い浮かべるであろう距離のことで
3平方の定理を利用して算出することができる
3. 類似度の高いデータをk個取り出し多数決で分類する
分類したいデータと類似度の高いデータを順にk個取り出す。
この中で最も多いラベルを分類したいデータのラベルとして出力する
4. 最も性能の良いkを調べる
このkの選び方によってアルゴリズム性能が変わる
一般にkが大きいほどデータのノイズによる性能の低下を抑えられるがその分たくさんのデータが計算に入るためクラス間の違いが明確にわからなくなる