databricks certification
lakehouse
ストレージベースで格納することで
非構造データの管理もできる
parquet などの構造などを使うことでインテグレーションにも強い
data lakeの問題点?
生データをとりあえず保存する形式
構造化データと非構造化データの流し込みが別システムになる
ジョブの管理、インフラの管理が複数箇所になる
これによりデータが分散して保存されるため、統合、加工して戻されるなどが起こり
データをどこで管理しているか(ガバナンス)をたどるのが難しくなった。サイロ化しやすい