次元削減
次元削減
高次元ベクトルをより少ない次元で表現する技術。これによりデータをより扱いやすくし、検索の効率を高めることができます。
考慮すべきパラメータの数を減らす
データ圧縮で使われ
次元削減は、データから重要な情報だけを抜き出し、あまり重要でない情報を削減するタスク。
ここでの次元とはデータの項目数のこと。
次元削減
相関関係があるデータの次元を削減する。
メリット
データの次元数は多ければ多い方がデータの特徴がよくわかるように思われるが
機械学習においては次元数が大きすぎると次元の呪いが発生する。
データの圧縮
大きな次元のデータを少ない次元のデータで置き換えると単純にデータ量が削減できる。
次元削減でデータの可視化
高次元のデータをわかりやすいように可視化できる。
次元削減の手法は落とし込む軸の選び方でいくつか種類がある。
次元削減ではデータ量を削減しているため
データの本来持っていた情報の1部が失われる。
最も多く利用されているのが主成分分析です。