次元削除
教師なし学習
データの本質を落としすぎない範囲で、特徴量の数を減らす分析
データの全体像を掴みやすくなる
実際に測定できる構成要素を組み合わせる事で、実際には測定できない概念的な指標を作成できる
表データなどで、各列の直腸を調べて、多数の列項目を少数の列項目に削減
5教科を文系と理系にするとか
傾向が似ている列項目をまとめて新たな列項目を作る
重要な情報だけ抜き出し、重要ではない情報を削減する
主成分分析
次元削除の手法の1つ
各列の相関を考慮して、傾向が似ているかどうかを判断して、1列にまとめる
相関を考慮した新しい軸を引く
新しい軸での分散が多いほど、元データの情報を反映している
新しい軸の候補の中で、データの分散値が最大になる軸を選択する
分散が少ないということは、ほとんどのデータが同じということ
新しい軸を固有ベクトルまたは主成分と呼ぶ
新しい列データの分散値は、元データを反映している情報量
厳密にいうと、新しい列は全ての既存列から影響を受けている
その中で各列から受けた影響の度合いが異なる
主成分負荷量
標準化済データと主成分得点との相関関係
作られた新たな軸が、元の各列のどれと相関関係があるのかを見ることにより、新たな列と既存列の関係性がわかる
たとえば、国、英、社と強い相関があり、数、理とは弱い相関であれば、文系の軸ということが妥当だとできる
最適な列の個数
列がまとめられることにより、失われる情報もある
新規の列を増やせば、既存データの情報を十分に反映することができる
ただし、本質的な情報のみに着目するため、少ない列にまとめ上げるという目的と矛盾する
トレードオフの関係性となる
一般的には、元のデータ量の70〜80%程度を反映するように列の数を選択する
寄与率
元データの分散の全体(各列ごとの分散値の合計値)と新しい列の分散の比率
その新規の列が元データの全情報量のうち何%ほどを反映しているか
累積寄与率
第1列〜第N列の寄与率の合計を、第N列の寄与率という
0.8以上になるぐらいになるように新規の列数を調整する