各社のデータ基盤
メルカリグループがマイクロサービスを導入していることは、システムのスケーラビリティを上げていくという観点では必須のことです。一方で分析者目線では、一個の機能が複数マイクロサービスで実現されているとテーブルが色んなところにあって、それを統合的に見るのは常人技ではない。そこを誰かが責任を持ってまとめてくれるのは、マイクロサービスを導入している会社としてあるべき姿かなと思います。
データ活用者の方たちが求めているテーブルに辿り着くのをサポートするメカニズム、いわゆる「データディスカバリー」と言われている領域は、私たちも課題に感じているところです。 基盤の変遷もあり良記事
セキュアデータ基盤は、センシティブなデータが含まれる基盤でアクセス可能なメンバーが制限されています。また、特定の踏み台からしかアクセスすることができません。 カジュアルデータ基盤は、センシティブなデータが含まれていない代わりに、通常のオフィスネットワークからアクセスすることができる環境です。 マネーフォワードの「データガバナンス」
分析推進室が扱うデータは、高度なスキルを持ったエンジニアのみならず営業やマーケターさらには経営者といった多くのユーザーが扱うことを想定したものです。幅広い層のユーザーにデータを適切に扱ってもらうため、以下のポイントを重視して分析基盤を構築しています。
・データは常に一元管理し定義や役割を明確にする
・データのニーズを明確にし不要・不明なデータを扱わない
・分析者がデータ保護やプライバシーといったリスクを考えなくても取り扱える状態にする
私たちはこれらをデータガバナンスと呼んでいます(一般的なデータガバナンスの定義とは異なる部分もあります)。私たちが考えるデータガバナンスは、データ管理を行う上で中核となる要素の集合でありデータ管理そのものではありません。
あらゆる項目をモニタリングし品質を完璧に担保する仕組みを作るのは困難なので、「品質の観点を定義し、異常となる状態を定義すること」の判断軸が重要となります。
私は以下のように4つの判断軸・状態を定めました。
最新であること:作成時間が大幅に遅延していないか
欠損がないこと:レコード数が大幅に増減していないか
重複がないこと:一意キーが重複していないか
異常値がないこと:一意キーにNULLや空白が混入していないか
・note内の整形されていないローデータを集積する「データレイク」
・データレイクから目的別に利用しやすい形にした「データマート」
・特定条件から簡単にデータを抽出できる「ターゲティング基盤」
・noteのクリエイターがよりデータを活用しやすくするための「ダッシュボード基盤」
GMO
動画もあり
Softbank
Databricks
Sony
LINEYahoo!
基盤の変遷もあり良記事
CyberAgent
Snowflakeを採用しているらしい
スマートニュース
PFN
SmartHR
Opn
プレイコ
Go
Spiber
バイオ系企業なので毛色が違う、やめる
メルカリ
MoneyForward
Origami
終わってた
メルペイが子会社化してた
2020年1月にメルカリが子会社化し、メルペイにOrigami Payのサービスを吸収すると発表。Origami Payは約4年でのサービス終息することとなる。
Paidy
でてこない
リクルート
ほぼゆずたそさんの事例の気がしている
note
noteはSnowflake
DeNA
組織面で参考になりそう
三井住友銀行 atokara
楽天
タイミー