7-8 ゾンビマートと多段マート
近年はAWS RedshiftやGoogle Cloud Big Queryのような様々なデータ形式を一元管理できるデータベースサービスが流行っている
これらのデータベースサービスは、データの整合性に気を遣わなかったりと論理設計のルールに対して緩い
その結果、のちのち問題が見つかることが多々ある
その典型的な問題がゾンビマート
データマートとは何か - BI/DWHにおける外部スキーマ
ゾンビマートを理解するためにはデータマートの知識が必要
データマートとは、データウェアハウスから特定のデータを切り出した小規模で社員向けのテーブル群のこと
データマートはなぜ必要か
1️⃣ 利便性
DWHにくらべると、社員が欲しいデータをすぐに見つけ出すことができる
2️⃣ パフォーマンス
DWHにくらべると、SQLクエリが遅くなりづらい
ゾンビマート - DWHのアンチパターン その1
ゾンビマートとは、データマートによって作成されたテーブルが、その後誰も使わず誰も削除せず放置されてテーブル群のこと
データマートは、ユーザー(社員)からのその場限りの要請で気軽に作られがち
それ故に、不要になったテーブルが残ったままになったり、不要なテーブルなのか判断がつかずテーブルが削除できない
そうなると、ゾンビマートがストレージを無駄に食ってしまう
多段マート - DWHのアンチパターン その2
多段マートとは、データマート群のあるテーブルからデータを切り出して新たなテーブルが作られている状態のこと
データソースを追いにくい
いつ時点のデータなのか分かりにくい
ゾンビマート同様、ストレージを無駄に食う