Glueの稼働時間(cost)を削減する
削減するためにそもそもAWS Glue(およびApache Spark)の仕様・仕組みを勉強する
Sparkの「処理速度を高める」ための「分散処理」について書いてある記事
普通のPythonスクリプトをSpark化してお手軽並列処理する #spark - クリエーションライン株式会社
pandas + Apache Sparkで並列・分散処理を楽しく~ | NHN テコラス Tech Blog | AWS、機械学習、IoTなどの技術ブログ
Apache Spark で分散処理入門 - Qiita
Sparkのperformance tuningの情報
パフォーマンスのチューニング - Spark 2.4.3 ドキュメント 日本語訳
englishであるけども、検索結果一番上
Sparkの性能向上のためのパラメータチューニングとバッチ処理向けの推奨構成 | Think IT(シンクイット)
チューニング対象は大きく2つとのこと
パーティション数
そもそもデータソースにてパーティションが分かれていると、そのままブロックで分けて処理する
パーティションごとに1タスクで並列処理をする
つまりコア数よりも多いパーティションにしておかないともったいないtsawada.icon
raw data@datalakeのパーティションって…50とかあるっけ…?もっと分けたほうがいいかも
処理の途中でパーティション間のデータシャッフルをする
変換処理完了時点で、結果を並列でデータストアに書き込む
パーティション数をspark-defaults.confに記述するらしいけど……glueにこれあったか?
メモリ割当量
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
これめちゃ良さそう。
推奨本もあるので読もう
Scala, Pythonなどで記載せずにSpark SQLで記述しても「処理の最適化」はされていそう
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
AWS Glueの仕様について
料金 - AWS Glue | AWS
https://gyazo.com/85bb51dcb9bdfb1e5f9bed792c7e749c
defaultで5DPUが割り当てられる
20CPU, 80GB RAMということ。でかいなwtsawada.icon
一度利用したtableはRAMにdata乗っけておくみたいだから、とりあえず読み込んで…というのでもいいのか
加工に用いるinput dataによっては、DPUをたくさん利用して一気に片付けたほうがいいこともあるかも。
月18万円!AWS Glueの開発エンドポイントで破産しないために - Qiita 
1DPUで「4CPU」「16GBRAM」とのこと