PCA
統計データから互いに無関係(無相関)の成分を取り出して、観測値をそれらの成分の線形結合で説明すること
PCA とは、分散が最大となる方向ベクトル w1, w2,…, wn を求める問題
http://www.catnet.ne.jp/triceps/pub/sample/ws256.pdf
でどうやって求めるかというと、
主成分分析と固有値問題 | Aidemy | 10秒で始めるAIプログラミング学習サービスAidemy[アイデミー]
単位ベクトルに射影したときの(ベクトル)データの分散が最小になるようにする => 固有値を解く問題になる。
PCA in a tidy(verse) framework - goonR blog
tidyverseな枠組みでのPCA work(code)flow
Principle Component Analysis 主成分分析
irisのデータで、spreadsheet上で PCAの各種値をだしてみた。(固有値計算は別でやったが)
https://docs.google.com/spreadsheets/d/1FTSf7vDxYYqECZnOpjF53fPTPMmQrQEZ471yj3nnXgc/edit?usp=sharing
用語
主成分
合成された変数。説明変数に固有ベクトルを掛けた結果のもの。スカラー。主成分(合成変数)は、ランクぶん作れる。
主成分負荷量: 
元の変数(観測変数)との相関係数
固有ベクトルを変数にかけると、その主成分がでるので、ベクトルの値のそれぞれが対応する因子負荷量 係数になる。
寄与率
固有値を大きい順に並べて、順番にどれくらいの割合までいくかをみる。
主成分の分散もその(対応する固有ベクトルの)固有値に一致する。
PCAは、分散を大きくするとるように、データを空間上で変換するもので、主成分の分散と固有値の一致はそうかなと思う。数式で納得できてない...
因子負荷量:
元の説明変数は、できた主成分とどういう関係=> 相関係数があるか?を見る。
下図のbiplotだと、2つの主成分への寄与率で、元の説明変数をベクトル化。大きさは寄与率の平方和
寄与率の平方和が1を超えないのは、、、主成分同士が直交してるからだろうけど、数式がわからん....
biplot ggbiplot グラフ化
2つの主成分をx,y軸にとって、説明変数の相関係数ベクトル?を図示することで対応関係をわかりやすくしたのが、biplot
日本語が文字化けしないようにggbiplotを改変した • 計算論的薬学思考
まだ、私は日本語使う(仕事で使う)ことがないけど、将来有用かも。
svd - Positioning the arrows on a PCA biplot - Cross Validated
(gg)biplotの解釈の助けに。
ここで、irisだと、Species別に楕円ができて、68%の点が入るようになってるみたいだけど、このあたりもすっきり解釈したい。
赤の setosaは、PC2軸に沿った楕円になってるのは、setosaは pc2の分散が大きい. pc1は分散ほとんどなし、biasのみ。
元の説明変数、主成分、(結果後付の)品種、この3つがある。。それを図示するのはすごいが、、 #20180628
ggbiplot(... groups=Species)で指定
https://gyazo.com/f4b259e1615c6c8704b1e41053fdec10
参考
主成分分析 統計科学研究所:
Rでここの用語で説明してくれる。
主成分分析の考え方 | Logics of Blue
Rの使い方があるので、具体的でよい。
主成分分析
仕組みの説明がわかりやすい
タコでもわかる主成分分析
使いみちに関する説明が良い
PCAの最終形態GPLVMの解説
途中で脱落したけど、理解がすっきりする説明。
共分散行列にいくか、(データの)グラム行列にいくか
#部分空間法
#ml #20180408