k-means - zakuni

k-means

K個のクラスタに分ける、と最初に決める

最適なクラスタ数を見つけるための方法も色々ある

各データを、初期値としてK個のうちのどれかに割り当てる

ユークリッド距離に基づいて各クラスタの重心を求めて、各データを一番重心が近いクラスタに割り当て直して……をクラスタが変化しなくなるまで繰り返す

数値間の距離を利用することから、カテゴリカルデータを単純に数値のコードにしてしまうのでは問題がある

初期値について

初期値によって計算量が変わったり、局所最適解に陥り得る

初期値を遠ざけるようにして改善したのがk-means++