8-6 データクレンジングの重要性
データクレンジングとは
データベース構築や移行にあたって、それまでの業務で使われていたデータをデータベースに登録できる状態にする作業のこと
データクレンジングは設計に先立って行う
データクレンジング前のデータは、データベースに登録する以前に、不適切なフォーマットだったり、変更が必要な可能性もある
そのためデータクレンジングは論理設計前に行うべき
代表的なデータクレンジングの内容
一意キーの特定
例
エクセルで宿泊記録を取っていたとする
table:宿泊記録
宿泊日 宿泊者(代表) 部屋 日数 宿泊料 朝食
2021/01/12 渡辺光也 1101 2 53,000 有
2021/02/22 川田光一 101 2 40,000 無
...... ...... ...... ...... ...... ......
2023/03/12 渡邉光也 1201 3 63,000 有
...... ...... ...... ...... ...... ......
一意キーが存在しないので「渡辺光也」と「渡邉光也」さんが同一人物か判断できない
論理設計以前に一意キーが必要なことが分かる
名寄せ
一意キーが存在しないので「渡辺光也」と「渡邉光也」さんが同一人物か判断できない
上記を解決する方法が名寄せ
名寄せとは
似通った情報を1つに統合させること
名寄せは金融機関のデータクレンジングで頻繁に行われる作業
名寄せを怠ると、アンチパターンの7-7 ダブルマスタ生み出すことになる
名寄せの判断方法
一般的には2種類
1️⃣
別の情報と組み合わせて確度を高める
一意キーが存在しないので「渡辺光也」と「渡邉光也」さんが同一人物か判断できない
例えば住所が同じであれば同一人物と判断できる
2️⃣
出現頻度で判断
会社名は重複しづらいので表記が違っても同じ会社である可能性が高い