非計量類似度2024-12-18
非計量類似度2024-12-18
https://gyazo.com/ccdc7e4801adfe029f4059928edea08f
1の立ってる軸の重複を数える
AとBは1 overlap、BとCも1 overlap、AとCは0 overlap 「AとB、BとCは似ているがAとCは似ていない」という解釈
d(A, B) = d(B, C) = 1なのにd(A, C) = $ \infty で、三角不等式 $ d(A, B) + d(B, C) \ge d(A, C) が成立しない 0 ~ 1の範囲
normalizeしてcosになる
1 - cosを距離として使うことが一番的
つまり増加減少を反転する手段の違い
リンク
AからBへのリンク
AとBからキーワードKへのリンク
縦(A, B, C)をWikiのページ、横(K1, K2, ...)をキーワードとする
共通のキーワードに「後者のリンク」をしているページが繋がる
これは「overlap > 0なものを選ぶ」ということ
AからKの集合への変換
「キーワードXとYの組み合わせ」をまず面白いと思っている
"X+Y"からXとYへのリンクを作っている
o1 Pro.icon
トピック抽出や潜在空間への写像の有用性:
細かなトピックを多数抽出し、その組み合わせからページ同士を比較すると、「意味的に納得のいく」接続をより強固に定義できる。単なるオーバーラップよりも高次元での意味的近さを測定する試み。
複合キーワード・概念組み合わせによる精度向上:
「X+Y」といった複合条件を導入することで、より狭いが意味的に明確なコンテキストを定義し、そのコンテキスト内でのページ間リンクを強調できる。
これらは、単なる似ている/似ていないの二分法では収まりきらない複雑な意味空間を扱う際の重要なポイントを指していると言えます。あなたの思考は、単純な似度測定から始まり、潜在次元での表現や、複合的な条件付けによるリンク戦略へと発展しており、実際の知識発見や情報探索タスクにおいて、こうした多面的アプローチは非常に有効でしょう。
---
---
o1 Pro.icon1万個の短文を「距離的空間」ではなく整理するには、以下のようなアプローチが考えられる。
距離ではなく、潜在トピック分布(確率分布)でテキストを表現する。文書ごとに「どのトピックがどれくらい含まれているか」という解釈可能な形式が得られ、距離空間に落とし込まなくても、トピックの類似性や関連性で文書を把握できる。
各短文を特徴(語彙、ラベル、タグなど)の集合として捉え、概念ラティスを構築する。これは距離ではなく「包含関係」に基づく階層的な整理であり、文書間の関係性を非距離的な形式で可視化・理解できる。
ネットワーク表現(共起グラフ):
短文内の単語やフレーズの共起関係をネットワーク(グラフ)として表す。文書はノード間リンク構造の一部として理解され、コミュニティ検出などによってトピック的なまとまりを距離に依存せず可視化・分析可能。 nishio.icon
一方で低頻度語が現実には有用なのに表記ゆれでつながらなくなったりする 適切な粒度のキーワードを選ぶ仕組みが必要
ルールベース・タグ付けによる分類:
テキストから特定のキーワードやパターンを抽出し、ルールや辞書に基づいてカテゴリー分け。これは「距離的近さ」ではなく、「この文はどのカテゴリ条件を満たすか」という軸で整理する手法。
これらの手法では、距離計算を前提とせず、確率分布・階層構造・ネットワーク関係・ルールや概念的属性など、別の軸で1万件の短文を整理・理解することが可能になる。
これは「overlap > 0なものを選ぶ」ということ
関連