『データマネジメントが30分でわかる本』
https://gyazo.com/a7a7347e9c8ff5260e075d14d279e64a
2020/5/11
タイトル通りページ数も少なそうmrsekut.icon
1冊目に雑に読むのに良さそう?
経営視点も踏まえたデータ基盤の概要を掴みたいmrsekut.icon
1つ1つの話題にあまり深入りせず全体観を見たい
第1部 プランニング
データをマネジメントするのは意思決定のため
01: データアーキテクチャ
データをビジネスを繋げる青写真を作る
データの発生から使われるまでの流れの図を作る
データの種別ごとに作る
e.g. 検索、顧客登録情報
どこでデータを取っているのか
どこで使われているのか
どこに保存しているのか
この章で既に「これ大事だよな感」と「できてねえわ感」を感じているmrsekut.icon
社内の他の部署のことを理解するために、データの流れに着目して整理してみるのは良いかもしれない
データアーキテクチャの話を知らないと、既に利用しているツールを起点に整理してしまいそうだ
GAではこれ、DBではこれ、Sentryではこれ、、みたいに
しかし、まず大本のデータの流れから整理する
第2部 実装・運用: システム編
02: データストレージとオペレーション
規模にもよってツールが変わりそうなので、そのへんの見極めが難しそうな印象mrsekut.icon
安くて、速くて、安心
開拓フェーズにも向いている
03: データ統合と相互運用性(ETL)
そのデータウェアハウスで規定するフォーマットに変換してから入れる
そうすることで、データを使いたい時にインプット元に依存せずに使える
更新する頻度なども考える必要がある
登場するツールをgpt-4に解説させながら読んでたが、知らんものが多すぎて全くわからないmrsekut.icon
細かい差分がわからないのに、似たような(?)ツールがめっちゃ多い
第3部
04: データモデリングとデザイン(ER)
データ同士の関係性を図示する
概念モデル、論理モデル、物理モデル、とかの話
05: マスターデータ管理
更新するタイミング
更新すると影響が大きい
更新のバージョン管理
何で管理するか?
API, スプシ、JavaのEnum、...
マスターデータの定義が曖昧すぎないか?mrsekut.icon
06: ドキュメントとコンテンツ管理
個人情報を含むデータは文書に残してはいけない、とか 第4部
07: データセキュリティ
データのセキュリティレベルを判定する
機密性レベル
公開用
社外秘
知る必要がある人だけ
知る権利がある人だけ
規制カテゴリ
個人識別情報
財務データ
個人健康情報
競争上の優位性
契約上の制限
08: データ品質管理
データ品質とは、果たすべき目的に合致しているかどうか
基準、要件、仕様の定義
継続的に品質レベルを測定する仕組み
第5部
09: データウェアハウジング(DWH)とビジネスインテリジェンス(BI)
業務分析、意思決定のためのデータ提供
社内向けのアプローチといった感じ
データのレポーティングなどもすぐできるように整える
データの利用の要件を整える
5W1H
運用チームの準備
使われなくなっていく
そのデータが使われているかどうか?も計測する
10: メタデータ管理
メタデータ
ビジネス
入力規則や測定結果
e.g. 出所、有効値制約、構造、他のデータとの関係性、
テクニカル
技術的詳細
e.g. スキーマ定義、テーブル名、カラム名、アクセス権
オペレーショナル
処理とアクセスの詳細
e.g. アクセス頻度、実行時間、最終更新時間、エラーログ
第6部 全体指針とルール
11: データガバナンス
組織的な意思決定を行う
データエンジニアリングの人事評価
付録
https://gyazo.com/4728961b7deb156e6f121ba3406286c5
よんでない
付録C データラーニングギルド:データマネジメントを個人が気軽に学べる機会を!
よんでない