主成分分析
principal component analysis; PCA
相関のある多数の変数から、相関のない少数で全体のばらつき(分散)を最もよく表す、主成分と呼ばれる変数を合成する、多変量解析の一手法
目的主成分分析が固有値問題となる理由 | ねほり.com
データの特徴抽出
データのばらつきが大きい部分に着目することで、データを識別しやすくする
データの次元圧縮
データのばらつきが小さい部分を無視して次元を減らす
データの特徴の可視化
多くの場合、多変量データは次元が大きく、各変数を軸にとって可視化することは難しい
次元圧縮することで特徴を可視化できる
(n番目の)主成分ベクトル
それに射影したデータ点の分散を(n番目に)最大化するようなベクトル
計算すると、共分散行列の(n番目に)最大の固有値に対応する固有ベクトルになる
→共分散行列の固有値問題に帰着する
http://ibis.t.u-tokyo.ac.jp/suzuki/lecture/2015/dataanalysis/L7.pdf
データ点の分散の最大化問題をラグランジュの未定乗数法で解くと、共分散行列の固有方程式に帰着する主成分分析が固有値問題となる理由 | ねほり.com
主成分ベクトルを軸とする楕円体にデータをフィッティングしていると言える
https://gyazo.com/4a8b6d61b5d5d7c7e6d7c2e45f038b73主成分分析 - Wikipedia
多次元正規分布に従うサンプル点群に対する主成分分析の結果
主成分数を2として、主成分ベクトルたちが作る平面にサンプル点を射影して表示した?yosider.icon
矢印の長さは固有値の平方根、矢印の根本は分布の平均としている
主成分は観測値のセットの直交基底となる
共分散行列は実対称行列なので、その固有ベクトルたちは直交する
出典
主成分分析 - Wikipedia
主成分分析が固有値問題となる理由 | ねほり.com