データ分析基盤アーキテクチャ
ETL
ELT
Amazon EMR
Apache beam
バッチ処理
全てのデータが揃っており、処理対象の範囲が明確
sources、transforms、sinksのパイプラインファイルを柔軟に定義
Apache arrow
query engine,
It is built using Apache Arrow and DataFusion among other things
Athena
クエリエンジン
Data Catalog
Hiveメタストア
AWS Glue Data Catalog
バッチシステム
Argo
k8sとの相性がいい
ストリーミング処理
Embulk
Workflow Engine
airflow podをデプロイすることでairflow上のタスクスケジューリングをk8sクラスタで実現
データ方式
CSV、JSON、ORC、Parquet
datalake
AWS Glue
1時間に1回バッチETL
spark+hadoop --> aws glue
ETLとDWHの分離
DWHの障害がETLに波及しない
コスト削減
aws glue内部のETL処理層はspark
https://gyazo.com/5fbfc100d580baf68d6a63d44f2f4c47
データ転送
データ基盤アーキテクチャ
Lake House Architecture
ビッグデータの分散処理
そこまでビッグなデータじゃなければpostgresqlのextensionで十分処理可能
hadoop
bigqueryなどでベース
ストリーム、バッチ処理のデータ保存
dataflow
apache beam
kafka
ストリーム処理時のデータ保存