日記2024-01-14

素朴にベクトル類似度的な方法では英語と日本語が分離する

ベクトル空間で英語と日本語は分離してる.icon

僕個人としてはこれが大きな問題なので、単純な埋め込みベクトルの類似度ではあまり満足できない

でも英語と日本語の両方を使う人はごく少数なので気にしなくていいのでは

という話をしたんだけど、寝て起きたら「あらゆる英文を和文に機械翻訳してベクトルインデックスに積んだらいいのでは」という気持ちになった

ベクトルにしてから「離れてる空間をどうやって貼り合わせるか」と考えるよりよい、か？

Plurality和訳においては、いま言語を分けずにベクトルインデックスに入れている

それではユーザ価値を提供できないなという気持ちになっている

使うのは日本人だとするとクエリーも通常は日本語

でも熟語で検索すると中国語がヒットしてしまう

だとしたら「他言語→日本語」の「日本語」の側を検索インデックスに積む方が良いのでは

で、矢印を逆向きにして、日本語がヒットしてから原文を読みたければ読む、という形

機械翻訳による2つのチャンクの関連付けは一種の「リンク」

ベクトル検索によるヒットは緩いリンク

Scrapboxで人間が明示的に行っているリンクと比較する

「同じ内容の言語違いである」という意味のリンク

Scrapboxのリンクは「人間の連想」のリンク

何を記録するか