PCA - 未来の自分を助けるメモ

PCA

統計データから互いに無関係（無相関）の成分を取り出して、観測値をそれらの成分の線形結合で説明すること

PCA とは、分散が最大となる方向ベクトル w1, w2,…, wn を求める問題

http://www.catnet.ne.jp/triceps/pub/sample/ws256.pdf

でどうやって求めるかというと、

主成分分析と固有値問題 | Aidemy | 10秒で始めるAIプログラミング学習サービスAidemy［アイデミー］

単位ベクトルに射影したときの(ベクトル)データの分散が最小になるようにする => 固有値を解く問題になる。

PCA in a tidy(verse) framework - goonR blog

tidyverseな枠組みでのPCA work(code)flow

Principle Component Analysis 主成分分析

irisのデータで、spreadsheet上で PCAの各種値をだしてみた。(固有値計算は別でやったが)

https://docs.google.com/spreadsheets/d/1FTSf7vDxYYqECZnOpjF53fPTPMmQrQEZ471yj3nnXgc/edit?usp=sharing

用語

主成分

合成された変数。説明変数に固有ベクトルを掛けた結果のもの。スカラー。主成分(合成変数)は、ランクぶん作れる。

主成分負荷量:　

元の変数(観測変数)との相関係数

固有ベクトルを変数にかけると、その主成分がでるので、ベクトルの値のそれぞれが対応する因子負荷量係数になる。

寄与率

固有値を大きい順に並べて、順番にどれくらいの割合までいくかをみる。

主成分の分散もその(対応する固有ベクトルの)固有値に一致する。

PCAは、分散を大きくするとるように、データを空間上で変換するもので、主成分の分散と固有値の一致はそうかなと思う。数式で納得できてない...

因子負荷量:

元の説明変数は、できた主成分とどういう関係=> 相関係数があるか？を見る。

下図のbiplotだと、２つの主成分への寄与率で、元の説明変数をベクトル化。大きさは寄与率の平方和

寄与率の平方和が１を超えないのは、、、主成分同士が直交してるからだろうけど、数式がわからん....

biplot ggbiplot グラフ化

2つの主成分をx,y軸にとって、説明変数の相関係数ベクトル?を図示することで対応関係をわかりやすくしたのが、biplot

日本語が文字化けしないようにggbiplotを改変した • 計算論的薬学思考

まだ、私は日本語使う（仕事で使う）ことがないけど、将来有用かも。

svd - Positioning the arrows on a PCA biplot - Cross Validated

(gg)biplotの解釈の助けに。

ここで、irisだと、Species別に楕円ができて、68%の点が入るようになってるみたいだけど、このあたりもすっきり解釈したい。

赤の setosaは、PC2軸に沿った楕円になってるのは、setosaは pc2の分散が大きい. pc1は分散ほとんどなし、biasのみ。

元の説明変数、主成分、（結果後付の）品種、この３つがある。。それを図示するのはすごいが、、　#20180628

ggbiplot(... groups=Species)で指定

https://gyazo.com/f4b259e1615c6c8704b1e41053fdec10

参考

主成分分析統計科学研究所:

Rでここの用語で説明してくれる。

主成分分析の考え方 | Logics of Blue

Rの使い方があるので、具体的でよい。

主成分分析

仕組みの説明がわかりやすい

タコでもわかる主成分分析

使いみちに関する説明が良い

PCAの最終形態GPLVMの解説

途中で脱落したけど、理解がすっきりする説明。

共分散行列にいくか、（データの)グラム行列にいくか

#部分空間法

#ml #20180408