HDFS
HDFSはあくまでもファイルシステム
HDFSが扱うファイルは不変である
データの更新もできません。ファイルの内容を更新したい場合は、ファイルを一度削除してから更新後のファイルを追加する必要があります。
あくまでもファイルシステムなので、大量の小さなデータを読み書きするレスポンス重視のオペレーションには向いていない
仕組み
入力ファイルを分割して複数ノードに分散配置する
→読み書きのディスクI/Oを並列化→高スループット
複数のノードに複製することで耐障害性を実現
その他
ORCフォーマット
HDFS 向けに最適化された CSV のようなデータ形式