K-means法 - 「機械学習Ⅰ・Ⅱ（副専攻）」学びの素材集

K-means法

K-means法

「K個のクラスタに分ける」という前提を置いて、逐次的にデータの所属クラスタやクラスタ中心を更新していく手法

手順の全体像

https://gyazo.com/67ba93a80382289cb5557e39afd9a488

2つの変数を用いる

クラスタの中心を表わすベクトルを$ \boldsymbol \muとする

各データがどのクラスタに属するかを表わす行列を$ \bold Rとする

K-means法の流れ

Step 0（初期化）

$ \boldsymbol \muと$ \bold Rに初期値を与える

https://gyazo.com/8d3551840fe3734342708b1e9c6dfe29

Step 1

各データを最も近いクラスに所属させるステップ

https://gyazo.com/c220bd714cef610f8ac656f89df99db5

https://gyazo.com/3b731036cb71a6e961b07527689d5cb8

Step 2

各クラスタの中心を更新するステップ

https://gyazo.com/8245b717b0e29f02c6992a1d146d0691

Step1 と Step 2 を繰り返すことで、$ \bold Rと$ \boldsymbol \muを更新していくことができる

https://gyazo.com/cec085612b11b0dece8957b6d5f903a0

分類の「良さ」をどう判断するか

歪み尺度（distortion measure）

K-means法の結果のよさを評価する尺度

クラスタ内誤差平方和ともよばれる

https://gyazo.com/86d32424a7a14e8c6e4740eee00ed00e

よりシンプルに表わすと

https://gyazo.com/586f4bc62620e8d64af2adc95b3cdbd9

$ r_{nk}は、データ$ nが所属するクラスタでのみ1、それ以外では0をとるので、以下のようにも表せる

https://gyazo.com/3a82cbe9145dbafaa38705f64ce85fb7

https://gyazo.com/936c28569818e2cefcb398bce57613c1

Kの決め方

エルボー法

さまざまなKで歪み尺度を計算して図示し、歪み尺度の減少がゆるやかになる「エルボー（ひじ）」にあたるKの値を採用する

初期値依存性があるので、最初の$ \boldsymbol \muをいろいろ変えて試すことも必要

その他、シルエット法など