K-means法
K-means法
「K個のクラスタに分ける」という前提を置いて、逐次的にデータの所属クラスタやクラスタ中心を更新していく手法
手順の全体像
https://gyazo.com/67ba93a80382289cb5557e39afd9a488
2つの変数を用いる
クラスタの中心を表わすベクトルを$ \boldsymbol \muとする
各データがどのクラスタに属するかを表わす行列を$ \bold Rとする
K-means法の流れ
Step 0(初期化)
$ \boldsymbol \muと$ \bold Rに初期値を与える
https://gyazo.com/8d3551840fe3734342708b1e9c6dfe29
Step 1
各データを最も近いクラスに所属させるステップ
https://gyazo.com/c220bd714cef610f8ac656f89df99db5
https://gyazo.com/3b731036cb71a6e961b07527689d5cb8
Step 2
各クラスタの中心を更新するステップ
https://gyazo.com/8245b717b0e29f02c6992a1d146d0691
Step1 と Step 2 を繰り返すことで、$ \bold Rと$ \boldsymbol \muを更新していくことができる
https://gyazo.com/cec085612b11b0dece8957b6d5f903a0
分類の「良さ」をどう判断するか
歪み尺度(distortion measure)
K-means法の結果のよさを評価する尺度
クラスタ内誤差平方和ともよばれる
https://gyazo.com/86d32424a7a14e8c6e4740eee00ed00e
よりシンプルに表わすと
https://gyazo.com/586f4bc62620e8d64af2adc95b3cdbd9
$ r_{nk}は、データ$ nが所属するクラスタでのみ1、それ以外では0をとるので、以下のようにも表せる
https://gyazo.com/3a82cbe9145dbafaa38705f64ce85fb7
https://gyazo.com/936c28569818e2cefcb398bce57613c1
Kの決め方
エルボー法
さまざまなKで歪み尺度を計算して図示し、歪み尺度の減少がゆるやかになる「エルボー(ひじ)」にあたるKの値を採用する
初期値依存性があるので、最初の$ \boldsymbol \muをいろいろ変えて試すことも必要
その他、シルエット法など