Spark - 学習

Spark

spark自体はクラスターをマネージするわけではない→他のmesos、yarn、k8sなどに任せる必要がある

ユーザーの記述した処理をタスク

タスクをまとめてステージと言った粒度で保管する

ステージはシャッフルによって分離される

→同じステージ内であれば一続きのタスクを流れるように適用して一気に変換

https://gyazo.com/3547eaebb4d053398a6a1716ba1a17fb

kubernetesで実行する

spark-submit

Sparkオペレーター

k8sのリソースとして定義する。こっちの方が良い

k8sとyarnで実行した時とでパフォーマンスに違いはないらしい