Superposition
ほぼ垂直に押し込めるベクトルの数は、次元に対して指数的に増えていく。
Word2Vec(単語を意味空間に埋め込むモデル)は高々300次元のベクトルでしか表現しない。
それぞれの次元が「果実っぽさ度」「神性度」「抽象概念度」のような特徴に対応しているとしたら、300種類の特徴の度合いについて述べることしかできないのって、なんだかショボくない?
に対する仮説。なぜニューラルネットワークのそれぞれのニューロンが指し示す意味を特定するのが難しく、そしてなぜニューロン数に対してそのモデルの能力はスケールするのかを説明するのに役に立つかもしれない
https://youtu.be/mmWuqh7XDx4?si=wlEhmVzE_TQWnHDg&t=1017
Johnson–Lindenstrauss lemmaとも関連
高次元空間に存在する点の集合を、距離をほぼ保ったまま低次元空間に埋め込むことができることを保証する数学的な定理
N次元空間があって、この空間の中で互いに垂直な方向を使って異なる特徴を表現することを考える。
つまり、ある方向の成分を足しても、それが他の方向に影響を与えないということです。
するとちょうどこれができるベクトルの数は次元の数だけのNになりますね。
というかそれが数学的にも「次元」の定義にもなります。
しかしここで、この制限を少しだけゆるくして、ノイズを許容すると面白いことがおきます。
ぴったり直交するベクトルではなく、ほぼ直交するベクトル、例えば89度から91度のベクトルで、特徴を表すとしましょう。
これが2次元や3次元だったら、ほとんど違いはありません。全然ベクトルを詰められる余裕がないですからね。
しかし直観に反するかもしれませんが、高次元だとこれが大きく異なっています。