Beam
https://gyazo.com/a80eadd8b69f40330299bcd40e40c933
概要
バッチ・ストリーミングのデータ処理パイプラインを定義するためのプログラミングモデル
Googleが分散処理の抽象化した論文に基づいて実装されたやつ
コストが高い操作
マシン間で要素をシリアライズして通信を行う
プログラミングモデル
Pipeline
PCollection
分散処理対象のデータセット
Transform
(1以上の)PCollection→(0以上の)PCollection
ParDo
IO Transform
外部ストレージに対して読み書き
https://gyazo.com/25592113e09560198af34e761e7b92a0
パイプラインの実装
Pipelineオブジェクトと実行オプション
Read Transformでデータを読み込んでPCollection作成
Transform
WriteTransformで書き出す