データ基盤の事例
dely
行動ログをリアルタイムに分析できることが要件
hiroki.iconDWH×リアルタイム系で非常に参考になる。しかしコスト的には相当きてそうだ
行動ログの収集から分析可能になるまでの時間が3~5分
コンテンツ配信に必要な部分に限定した集計はほぼ数秒
Snowpipeが反応的にデータロードしてくれるのがポイント
https://gyazo.com/935c77ec87b9f44a8028b571bca2c377
こっちの旧版アーキテクチャでは分析可能になるまで数時間かかっていた
hiroki.iconおそらくGlueとAthenaの部分が反応的じゃなくてスケジューリングされていた感じなのかな
https://gyazo.com/3d938e130a2e5575f511988ea1c61193
セプテーニ
Tresuredata
digdag
S3
広告データ
媒体データ
行動データ
エウレカ
aws+gcp
BigQuery
CloudComposer
データ活用
tablue
Datarobot
redash
https://gyazo.com/737c68652ac8874dd3b009f89085b61f
hiroki.iconデータレイクにGCS使わないで直でBQなんだね DeNA
GCS
BQ
digdag on GKE
https://gyazo.com/2638c806d50851a19e84e20759605314
DECENCIA
Redshift
S3
Redash
https://youtu.be/NJwO2xvmuxg
https://gyazo.com/1e740dafb1747f2f88987f64aff30a2e
https://gyazo.com/6d1cf4fbcab8427c7fe49bb0ae421902
YOJO
https://gyazo.com/e3283895b0744699c2fb6fe270c7416e
問題点
データ変換処理の分散化
Tの記法を4つも覚える必要があって開発効率が悪い
データパイプラインのワークフロー管理
いつ何のデータが更新されるのか順番を追いづらい
手作業によるインフラ構築の負債化
https://gyazo.com/a62bd60dbdbeb2f375c3ab3ddb52d330