Airflow
https://airflow.apache.org/
ワークフローのスケジュール/モニタリングプラットフォーム
Spotify製のLuigiやTreasureData製のDigdagが類似
Pythonで書かれたOSS
セルフホストするかマネージドサービスで利用する
AWS => Managed Workflows for Apache Airflow
GCP => Google Cloud Composer
Airflow入門
アーキテクチャ
https://gyazo.com/f97bab2e468da050ba42b7f6251e1224
DAGs
Web server
Flaskで書かれたGUI
Scheduler
Metadata DB
Executor
Worker
Task
Airflowの実行単位。1つ以上のタスクの組み合わせが1つのDAGを形成する
Task instance
DAGの実行時に生成されるTaskのインスタンス
流れ
Schedulerが実行のたびにDAG Runを生成する
DAG RunはTask instanceを作る
Executor~WorkerがTask instanceを受け取り、実行