データレイク
全てのデータをスケールする形で、かつ低コストで一箇所に集めて保存するもの
Data Lake(データの湖)の名前が示すように、多くの支流(ルート)からデータファイルをかき集めため、貯めこんでいる巨大なデータファイルの集積場所です。
現代のデータレイクはオブジェクトストレージにファイルで置くのが主流
今後はイミュータブルアーキテクチャにしてタイムトラベルなんかも普通にできるようになる→Snowflake hiroki.icon従来のRDBでは構造化データを正規化して保管していくというパラダイムだった。けど、データ量とデータ種類とデータ分析が多様化した結果最初から正規化、構造化するというのではスケールしなく柔軟な要件に対応できない。そこでスケールするデータストアにそのままの形で保存して後続で柔軟に処理を継続するという形態に落ち着いたのがデータレイク
https://gyazo.com/bcb1e0ac5ce66af79041a9073001b921