k-means
クラスタリング
の手法
K個のクラスタに分ける、と最初に決める
最適なクラスタ数を見つけるための方法も色々ある
エルボー法
ギャップ統計
シルエット分析
交差検証法
各データを、初期値としてK個のうちのどれかに割り当てる
ユークリッド距離
に基づいて各クラスタの重心を求めて、各データを一番重心が近いクラスタに割り当て直して……をクラスタが変化しなくなるまで繰り返す
数値間の距離を利用することから、カテゴリカルデータを単純に数値のコードにしてしまうのでは問題がある
ワンホットエンコーディング
などを用いて解決する
初期値について
初期値によって計算量が変わったり、局所最適解に陥り得る
初期値を遠ざけるようにして改善したのが
k-means++