表記揺れ
送り仮名の違い、長音の有無、字種違い、などの同じ単語であっても異なる表記のこと。
表記ゆれ自体が表記ゆれしている・・inajob.icon
表記揺れを吸収するのではなく、消すというのはどうか?bsahd.icon
正式な表記を1つ決めてそれ以外の表記をすると自動的に置換される
活用のある品詞(動詞・形容詞・形容動詞)をページ名に使うと送り仮名の違いで表記ゆれが起こるため
曖昧な表現を束ねて管理したい
意味にIDを振る?
複雑化しそう
デライトはがんばってこれを解決しようとしているが、お世辞にも使い勝手がいいとは言えないkuuote.icon それともUIの問題であり、サジェストが進化したら解決する?
cons: リンククリック数が増えるのが少々手間takker.icon
言語系の機械学習やっている学会誌とか覗けば、意外と解決手法が載っていたりするかも
yuki_minoh.icon自然言語処理の研究室で研究しているものです。
学部生なんでしょぼいもんですが
現状として、教科書レベルの対応として以下が挙げられます
非常に現実的です!「2ちゃんねる」と「2ちゃんねる」ぐらいの表記揺れならなんとかなります
お、asearchのアルゴリズムで使っているやつだtakker.icon 語の活用変化の修正
活用基本形への修正、語末の切断などの対応方法があります
実現にはちゃんとした知識が必要
外部ツールが使えるなら楽
mecabなど
sub-word特徴の利用
文字n-gram、Character Convolution など
大規模なデータ収集でまとめて学習しておくならUserScriptでも可能かも
機械学習(特にニューラルネットワークとか)
とてもじゃないがUserScriptのみでの対応は考えないほうがいい
外部通信前提
かなり柔軟な表記揺れ解消が望める
いや、推論器だけを載せるならいける。。。?
サクサク動くかとか色々考えることがある
でも、機械学習レベルにならないと、「SNS」と「 Social media」とかの、「表記が全然違うけど同じ意味」の吸収は地獄です
あ、wikipediaの記事とかから類似度計算する?
なんにせよめんどい
まぁ検索システムを扱うところは実際どこも真剣で切実な問題でしょうね。。。yuki_minoh.icon