データ分析基盤アーキテクチャ

https://github.com/0xnr/awesome-bigdata

ETL

Step Functions と Lambda Function で組む Athena によるファイル処理

https://pages.awscloud.com/rs/112-TZM-766/images/JP_AWS_Creating_a_Modern_Analytics_Architecture_eBook_FINAL.pdf

データ分析基盤における概念モデル（リファレンスアーキテクチャ）

https://speakerdeck.com/yuzutas0/20200715?slide=72

AWSを使ったサーバレスETL処理

Google Cloud Dataflow vs. AWS Glue vs. Stitch

ETL(ELT)処理用フレームワークcliboaとは何か

ELT

CData Sync + BigQuery の”ELT” でゴミの山状態のデータを分析利用可能に

Amazon EMR

https://pages.awscloud.com/rs/112-TZM-766/images/I_AWS_Media_Seminar_20210318PM_Session_2.pdf

Apache beam

https://github.com/apache/beam

https://qiita.com/apstndb/items/15aa847592f671366e74

https://qiita.com/kimutansk/items/d6daca473440462634a0

バッチ処理

全てのデータが揃っており、処理対象の範囲が明確

https://github.com/pabloem/awesome-beam

https://suzan2go.hatenablog.com/entry/2019/07/04/181906

社内データパイプラインツールを Mercari Dataflow Template としてOSS化しました

sources、transforms、sinksのパイプラインファイルを柔軟に定義

FlexTemplateを活用した柔軟なデータ処理

Apache arrow

https://github.com/apache/arrow/commit/06c751b8d8b0e692b80ff3402eb5f7375f4ec6ca

https://github.com/apache/arrow-rs

https://github.com/apache/arrow-datafusion

query engine,

https://github.com/influxdata/influxdb_iox

It is built using Apache Arrow and DataFusion among other things

Apache Airflow or Apache Beam for data processing and job scheduling

Athena

Amazon Athena 資料及び QA 公開

クエリエンジン

データ分析に最適なクエリエンジンの選定⽅法

Data Catalog

Hiveメタストア

AWS Glue Data Catalog

バッチシステム

バッチシステム刷新にあたって技術選定をLOGLYはどう行ったのか

Argo

k8sとの相性がいい

ストリーミング処理

Googleが考えるストリームデータ処理とは？

https://github.com/MaterializeInc/materialize

Embulk

Digdag と Embulk と Athena で作る Gunosy の ELT基盤

Digdag + Embulk + Fargateによるデータマスキング

https://github.com/shgtkshruch/embulk-masking-sample

Workflow Engine

【Kubernetes】Airflow on Kubernetesで最強ETL基盤【Airflow】

airflow podをデプロイすることでairflow上のタスクスケジューリングをk8sクラスタで実現

データ方式

CSV、JSON、ORC、Parquet

カラムナフォーマットのきほん〜データウェアハウスを支える技術〜

datalake

https://speakerdeck.com/yuki_saito/aws-detareikushi-li-ji-ri-deng-tan-zi-liao

AWS Glue

AWS ETL祭り - AWS Glue活用事例

https://primenumber.co.jp/system/

1時間に1回バッチETL

spark+hadoop --> aws glue

ETLとDWHの分離

DWHの障害がETLに波及しない

コスト削減

aws glue内部のETL処理層はspark

https://gyazo.com/5fbfc100d580baf68d6a63d44f2f4c47

BlackBelt AWS Glue 資料及び QA 公開

5TB/日のデータをAWS Glueでさばくためにやったこと（概要編

AWS Glueを使った Serverless ETL の実装パターン

Glueの使い方的な

データ転送

AWS DataSync 資料及び QA 公開

データ基盤アーキテクチャ

GCPで構築する、これからの変化に対応出来るデータ分析基盤の作り方

ビッグデータ処理データベースの全体像と使い分け2018年version

最新のDWH、ETLの技術的背景について"超ざっくり"とまとめる

Lake House Architecture

https://dev.classmethod.jp/articles/20210301-bigdata-jaws-16-lake-house-architecture-pattern/

https://tech.nri-net.com/entry/2021/05/10/085910

ビッグデータの分散処理

そこまでビッグなデータじゃなければpostgresqlのextensionで十分処理可能

hadoop

bigqueryなどでベース

ストリーム、バッチ処理のデータ保存

dataflow

apache beam

kafka

ストリーム処理時のデータ保存