主成分分析
PCA; Principal Component Analysis 特徴量が4つ以上ある多変量データにおいて、すべての特徴量を考慮した「散布図」を作成できる
低次元化、つまり少数のパラメータ(主成分)に情報を圧縮できる
スコアの二乗和が最大になるようなt軸のこと
各サンプルからt軸に対して垂線を下ろした時の、t軸上の座標
制約条件の式を満たしながらSが最大となる(p1, p2)を求める
行列で表現
行列式$ X^T X - \lambda Iが0であることが必要
第1主成分と第2主成分との内積は0、つまり無相関になっている
$ X^T Xの固有値や固有ベクトルを求めることと言える
PCAモデル
データセットから規則性のない残差を取り除いた、規則性のある部分
特徴量や主成分のもつ情報量は、それぞれ特徴量や主成分の分散とする
二つの主成分で表現できるデータセットX内の情報量の割合は、主成分の分散から計算される
オートスケーリングされていたら1
各種成分の分散を全情報量nで割ったもの