次元の呪い
https://gyazo.com/a584556b87390d4fbad2747e235a0017
人間は2~4次元を超えるとイメージすることが困難になる
次元が高くなった時に色々と意外な現象が起こる
高次元空間において、ほとんどすべての点は中心から遠い 1次元で原点から距離1以内にある点は、距離2以内にある点の半分
2次元では1/4
3次元では1/8
…と次元が上がるにつれて指数的に「近い点の割合」が小さくなる
サンプリングに必要なサンプル数が指数的に増える
機械学習の場合に、次元を増やすことによってかえって精度が悪化する
次元追加による精度向上よりもサンプル数不足の効果の方が圧倒的になるから
https://gyazo.com/934a40866acc18c6b266fdbb0c8b1ac2
3次元以上の場合はベクトルの長さの最頻値が0ではない。
各軸が0が最頻値の標準正規分布に従うという条件
これは「ほとんどの点は中心から遠い」と関連している
1000000 サンプルのうちコサイン類似度が 1/2 を超える割合を求めると、
10 次元 では 0.06 (約 1/17)、
20 次元 では 0.01 (約 1/100)、
30 次元 では 0.0021 (約 1/480)、
40 次元 では 0.00042 (約 1/2400)
100 次元 では、1000000個サンプリングした中にコサイン類似度が 1/2 以上になる点はなかった
もちろん2次元では33%
関連
高次元空間でランダムな2つのベクトルを取った場合に、その2つがほぼ同じ方向である確率は、その2つがほぼ直交である確率に比べてとても小さい
次元(評価軸の本数)が増えると、ある人のスキルが別の人のスキルに対して完全に優越する状態が起こる確率が下がる
1次元で100%、2次元で50%、3次元で25%
https://gyazo.com/1b7ed946d22e1cceca40118b9cc7ee6f
10次元で99.8%
特定の軸だけが大きいケースはほとんどない