マハラノビスの距離
平均ベクトル、分散共分散行列を計算しておいて、ある点Xの中心(平均ベクトル)からの距離は、
$ \sqrt{(\bold{x} - \bold{\mu})\Sigma^{-1}(\bold{x} - \bold{\mu})}
二次形式で Xの値が定まればスカラーになる.行列による変換をして距離(ベクトル自身の二乗のroot)をとる。 直感的解釈: 例えば分布が楕円状だった場合、短軸方向の距離は小さくなければならないが、長軸方向の距離はより大きい値を取りうるだろう。分布を最もよく表現する楕円は、共分散行列によって見積もることが出来る。そして重心から標本点までの距離を、その方向における楕円の幅で割ったものがマハラノビスの距離である。 とりあえず、このイメージだけで...
参考
マハラノビス距離を用いたk-means法は,所属確率(尤度)を距離とするような非階層クラスタ法であるといえます
尤度を用いてクラスタリングするので,クラスタ数についてAICなどの情報量基準を利用できます。これによって,最適なクラスタ数を選択することもできるのです。便利
scikit learnでk-meansをみてたのだけど、マハラノビスの距離はつかえないのかも。。。 近傍法での距離関数の利用の話だけど、、当たり前だけど、分散共分散行列を渡さないといけない。
distance metricsは、neighbors用か..