主成分分析
相関のある多数の変数から、相関のない少数で全体のばらつき(分散)を最もよく表す、主成分と呼ばれる変数を合成する、多変量解析の一手法 データのばらつきが大きい部分に着目することで、データを識別しやすくする
データのばらつきが小さい部分を無視して次元を減らす
多くの場合、多変量データは次元が大きく、各変数を軸にとって可視化することは難しい 次元圧縮することで特徴を可視化できる
それに射影したデータ点の分散を(n番目に)最大化するようなベクトル
→共分散行列の固有値問題に帰着する
主成分ベクトルを軸とする楕円体にデータをフィッティングしていると言える
多次元正規分布に従うサンプル点群に対する主成分分析の結果
主成分数を2として、主成分ベクトルたちが作る平面にサンプル点を射影して表示した?yosider.icon
矢印の長さは固有値の平方根、矢印の根本は分布の平均としている
共分散行列は実対称行列なので、その固有ベクトルたちは直交する 出典