名寄せ
名寄せとは、複数に分散されているデータベースの同一人物、同一企業、同一世帯に対し、同一のIDを付与するなどしてデータを統合すること。またはその作業。具体的には、顧客を識別する名前、メールアドレス、住所、電話番号などの属性が一致する顧客を「同一顧客」と判別すること。
sta.icon
表記揺れという言葉を使う派なのだけど、会社で「名寄せの問題」という言い方をする人がいた ふむ。この用語集によると、名前を合わせるというより属性値を工夫して同一性を担保する、だなぁ
とするとやはり表記揺れの方が良いのではないか?
sta.iconSBOMと脆弱性の文脈でこの難しさにぶち当たった
住所や氏名の文脈では名寄せと呼んでいる?
漢字持ちの日本の名前は鬼門だよねぇ……
マイナーだからといって無視できないのが名寄せの難しさの一つでもあります。あり得ることは、すべて考慮しなくてはなりません。
分割の問題
簡単な例としては、「姓」と「名」のあいだのスペースの全角/半角などが揺れます。スペースがない場合、今度はどこまでが姓なのか判別が難しく氏名が出てきそうです。
え?キモッ
そこには渡辺さんの「辺」の異体字が140文字も登録されています。
外字問題
これはあくまで官報文字の話です。普通のシステムの文字コードでは140種もの異体字を表現できません。
表現できない文字は「外字」という画像を登録して扱うのですが、この「外字」の登録先に割り当てる文字コードはシステムやベンダによってバラバラです。文字コードがバラバラというのは、見た目がまったく同じ文字であっても別の文字として認識され、名寄せができないということです。
生年月日もエグイよねぇ
元号が邪魔してくる
1926年12月25日は、「大正15年12月25日」と「昭和元年12月25日」の2通りの表記があるそうです。
結局ID振るのが正義
ところで、「こんなに名寄せが大変なら、国民に一意なIDふればいいんじゃ?」と思いますよね。
そう、それが個人番号(マイナンバー)という発想なのです。
+1sta.icon
sansanは名寄せ技術扱ってるイメージ
Sansanの名寄せ機能は、多くのプロダクトやユーザーに利用されており、日々大量のリクエストが処理されている。名寄せには高い正解率と識別率が求められており、主にアルゴリズムによって構成されている。