実践的データ基盤への処方箋
https://gyazo.com/70f5c0e0e03e2cd7d5ccadc1d6f66c30
いろいろ良い
データ基盤の作り方は認知されているが活用の仕方が認知されていない
データ生成の現場を業務レイヤで分けて整理する
ロール
オペレーション
アプリケーション
ストレージ
table:layer.tsv
サイトでの購入 営業活動
ロール 顧客 営業スタッフ
オペレーション 商品の購入ボタンをクリック 商談のメモを取る
アプリケーション EC サイト 紙の手帳
ストレージ データベース 紙の手帳
データソースの生成過程から更新頻度や入力方法など改善案を考える
データ生成者がデータ活用者にとって好ましい行動を取りたくなる状況が必要
データソースの整備ではマスタ・共通ID・履歴の3つを担保する
部署横断のマスタデータと業務手順書を機能させる
ジャンル・業種 など
データのユースケースを検討する
開発・運用コストをユースケースの便益が上回っている状態を目指す
目標・現状・課題・施策
意思決定マトリクス
https://gyazo.com/b7ddec4eee37379cee91c073d5d4d511
書いて残しておくだけでもよさそう
データ活用につなげるため 5W1H を書き出す
code:5w1h
●◯◯部長が(誰が)
●水曜日の朝10時に(いつ)
●役員ミーティングで(どこで)
●進捗確認のために(何のために)
●週次の売上推移を(何を)
●報告する(どうするのか)
ダッシュボードの意義がわかる
作ったけど使われてないみたいなのも
活用をモニタリング
導入したツールが活用されているか
期待する効果が得られているか
想定外のトラブルや労力が発生していないか
部署や役割によって最適なツールが異なる
Excel 使いたい / Tabelau 使いたい / Jupyter Notebook 使いたい
押し付けたら使われない
メタデータの整備
データマートやウェアハウス作るときにデータを把握していないとできない
メタデータ例
誰によっていつ生成されたのか
誰によっていつ参照されているのか
個人情報の有無
単位
一番詳しく内容に責任をもっているのはデータを生成する人
サービスレベル
https://gyazo.com/d06988ab667715740b32104ccf1ab18f
データ構造も一緒に収集する
これ外部からデータ取ってくるところでやっていた、アラートも出るしうまくいってる
AVRO / Parquet
CDC = Change Data Capture
話すときに CDC という言葉が出てこないことがあった
ワークフローエンジン
依存関係辿るぐらいなら Dataform でもできてまあ満足
失敗したときに途中から再実行したりなどあまりうまくいっているイメージないが Airflow とか使えばけるのかな?
データ組織の成功に必要な10要因
①幹部からの支援
②明確なビジョン
③前向きに取り組むべきチェンジマネジメント
④リーダーシップ統制
⑤コミュニケーション
⑥ステークホルダーの関与
データ活用によるステークホルダーへの影響範囲
ステークホルダーの役割と責任の整理
各ステークホルダーの課題
重要なデータや情報の権限の管理者
他のステークホルダーに影響を与える人物やグループはどこか
⑦オリエンテーションとトレーニング
⑧導入状況の評価
⑨基本理念の遵守
⑩革命ではなく進化
データ品質
正確性、完全性、一貫性、整合性、妥当性、一意性、有効性
セキュリティ
Tier で定める例
https://gyazo.com/8a657f74c25927347e6db140a9d810ce
1 のほうが上のイメージある
利用や権限管理などの運用ルールをドキュメント化
情報の場所と種類
情報にアクセスできる権限
権限を得るために必要な承認フローやプロセス
問い合わせ先(相談する担当者や管理している部署)
棚卸し
使われていないダッシュボード
使われていないデータマート
使われていないデータウェアハウス
よく利用されるデータソース
よく発行されるクエリ
システムが利用するアカウントキー
K-匿名性
ある情報で何人までしぼりこめるか
10-匿名性 = 情報から10人程度まで特定できる