大規模データ分析でこれ覚悟しとけってやつ
データロストしても泣かない
確率は極力下げるべきではあるが、データパイプライン次第では起こる時は起こる
大規模データ分析は大規模ゆえにデータが大量に送信されてくるため、同期で投げ込むことはほぼ不可能
非同期にするとロストする可能性が生まれる
マズいのであれば別の信頼性が高いオンラインのデータストレージを併用するとか
データ重複しても泣かない
ロストとほぼ同じ理由
ロストするよりはマシ
クエリ側で頑張りましょう
データのマイグレーションはしない
データが多いので基本無理
スキーマを拡張するなりなんなりで相互乗り入れで運用できるようにがんばろう
データインからクエリアウトまでの時間を短くすることにはトレードオフがある
主に性能 (つまりカネ) とのトレードオフ