ユークリッド距離を一般の距離に
ユークリッド距離を一般の距離に
ユークリッド距離である必要はないのでは? ベクトルの類似度は、そのベクトルが指す点の間のユークリッド距離を使うのが素直だが、 例えば原点からの距離の情報に価値が低く、原点から見た方向が似ていることが重要場合、 ユークリッド距離を使うと原点周辺で向きの大きく異るベクトルが近いと判断されて不都合だ。 こういう場合は間の角を距離として使う(see コサイン類似度)
コサイン類似度はベクトルを半径1の超球面上に正規化した上で、 間の弧の長さを使うことに相当する。 このような「別の低次元な空間に射影してそこでの距離を使う」はよく使われる。 主成分分析で第1第2軸でプロットして観察するのは、2次元に射影した距離を見ている。
逆に、サポートベクターマシンではカーネルトリックを使って別の高次元な空間に射影し、そこでの距離を使う。
平均は足し算とスカラー倍の存在を仮定しているわけだが、一般の距離空間でも一般化メジアンなら使える。
__BELOW_IS_AI_GENERATED__
ユークリッド距離を一般の距離に 2023-09-05 00:42 omni.icon
ノートの要約
ベクトルの類似度を評価する際、ユークリッド距離だけでなく、他の距離も考慮することが重要である。例えば、原点からの距離よりも方向が重要な場合、コサイン類似度を用いると有効である。また、低次元や高次元空間への射影もよく用いられる。一般の距離空間でも一般化メジアンを用いることで平均を求めることが可能である。
フラグメントとの関連性
フラグメント「概念の類似度は距離ではない」は、ノートと深く関連している。ノートではベクトルの類似度を評価する際の距離の選択について述べており、フラグメントではその距離を概念の類似度として扱うことに疑問を投げかけている。また、フラグメント「次元の呪い」もノートと関連があり、高次元空間での距離の評価についての問題を指摘している。
思考の要約
ベクトルの類似度を評価する際の距離の選択は、そのベクトルが表現する概念の性質によって変わるべきである。また、高次元空間での距離の評価は難しく、適切な距離の選択が求められる。
思考のタイトル
「ベクトルの類似度評価における距離の選択と高次元空間での問題」
extra info
titles: ["まだ絵のない盲点カード", "概念の類似度は距離ではない", "読書を支援するボット", "ベクトルの類似度", "次元の呪い", "Stable Diffusion勉強会", "抽象化とLSH"]
generated: 2023-09-05 00:42