PCA
統計データから互いに無関係(無相関)の成分を取り出して、観測値をそれらの成分の線形結合で説明すること PCA とは、分散が最大となる方向ベクトル w1, w2,…, wn を求める問題
でどうやって求めるかというと、
単位ベクトルに射影したときの(ベクトル)データの分散が最小になるようにする => 固有値を解く問題になる。 tidyverseな枠組みでのPCA work(code)flow
Principle Component Analysis 主成分分析
irisのデータで、spreadsheet上で PCAの各種値をだしてみた。(固有値計算は別でやったが)
用語
主成分
合成された変数。説明変数に固有ベクトルを掛けた結果のもの。スカラー。主成分(合成変数)は、ランクぶん作れる。
主成分負荷量:
元の変数(観測変数)との相関係数
固有ベクトルを変数にかけると、その主成分がでるので、ベクトルの値のそれぞれが対応する因子負荷量 係数になる。
寄与率
固有値を大きい順に並べて、順番にどれくらいの割合までいくかをみる。
主成分の分散もその(対応する固有ベクトルの)固有値に一致する。
PCAは、分散を大きくするとるように、データを空間上で変換するもので、主成分の分散と固有値の一致はそうかなと思う。数式で納得できてない...
因子負荷量:
元の説明変数は、できた主成分とどういう関係=> 相関係数があるか?を見る。
下図のbiplotだと、2つの主成分への寄与率で、元の説明変数をベクトル化。大きさは寄与率の平方和
寄与率の平方和が1を超えないのは、、、主成分同士が直交してるからだろうけど、数式がわからん....
biplot ggbiplot グラフ化
2つの主成分をx,y軸にとって、説明変数の相関係数ベクトル?を図示することで対応関係をわかりやすくしたのが、biplot
まだ、私は日本語使う(仕事で使う)ことがないけど、将来有用かも。
(gg)biplotの解釈の助けに。
ここで、irisだと、Species別に楕円ができて、68%の点が入るようになってるみたいだけど、このあたりもすっきり解釈したい。
赤の setosaは、PC2軸に沿った楕円になってるのは、setosaは pc2の分散が大きい. pc1は分散ほとんどなし、biasのみ。
元の説明変数、主成分、(結果後付の)品種、この3つがある。。それを図示するのはすごいが、、 #20180628 ggbiplot(... groups=Species)で指定
https://gyazo.com/f4b259e1615c6c8704b1e41053fdec10
参考
Rでここの用語で説明してくれる。
Rの使い方があるので、具体的でよい。
仕組みの説明がわかりやすい
使いみちに関する説明が良い
途中で脱落したけど、理解がすっきりする説明。