Trino / presto
presto vs spark
presto
コンパクト(数分以内、全てメモリに乗り切る)な集計クエリに最適
ANSI SQLかつinteractiveな分析クエリ時に適している
spark(Hive)
数時間かかる大きなバッチクエリ
メモリに乗り切らないオーダーの処理
JOIN数が多い、条件が文字列など
結果セットが数百万行
ETLやMLパイプラインなど
資料
masking
UDFの作り方
プラグイン
trino-hive
Ranger plugin
UI
素振り系
Hive Metastore
CLI
カタログ
SQL Syntax
Dynamic catalog
zookeerper
restart cluster
PRs
認証・認可
Oauth2.0
論点
<catalog>.<schema>.<table>がテーブル決定に使われるので、マルチテナント利用に適していない
federated query
s3