Spark
spark自体はクラスターをマネージするわけではない→他のmesos、yarn、k8sなどに任せる必要がある
ユーザーの記述した処理をタスク
タスクをまとめてステージと言った粒度で保管する
ステージはシャッフルによって分離される
→同じステージ内であれば一続きのタスクを流れるように適用して一気に変換
https://gyazo.com/3547eaebb4d053398a6a1716ba1a17fb
kubernetesで実行する
spark-submit
Sparkオペレーター
k8sのリソースとして定義する。こっちの方が良い
k8sとyarnで実行した時とでパフォーマンスに違いはないらしい