データベース研究にまつわる小ネタ集
論文を書くときに使えるような,小ネタをまとめていく
1. O(1) と O(log N) の計算量の違いは一桁性能を変えることもある
Wormhole: A Fast Ordered Index for In-memory Data Management (EuroySys'19)
2. インメモリDBの処理時間の最大94%はインデックスが占める
Meet the walkers: accelerating index traversals for in-memory databases (MICRO-46)
3. Linearizabilityがないと防げないAnomalyはFacebookの環境でも0.0004%にすぎない
Existential Consistency: Measuring and Understanding Consistency at Facebook (SOSP'15)
4. Facebook (Meta) のラックコストの40%はDRAM
TPP: Transparent Page Placement for CXL-EnabledTiered-Memory (ASPLOS' 2023)
5. Microsoft Azure のサーバコストの50%はDRAM
2020. CXL And Gen-Z Iron Out A Coherent Interconnect Strategy.
6. HFT ではレイテンシが200ミリ秒を超えると収益が大幅に低下し,低ボラティリティの日は50ミリ秒でその兆候が現れる
High-Frequency Technical Trading: The Importance of Speed
7. Amazonでは100ミリ秒のレイテンシ低下が1%の売上減少につながる
Amazon Found Every 100ms of Latency Cost them 1% in Sales
8. DRAMの容量対価格は非線形。64GBのDRAM価格は16GBのそれの7倍
Don't Forget About Memory: DRAM's Surprising Role in the High Cost of Data Centers
9. 2000ドルで買えるもの: 20x4TB HDD or 8x1TB NVMe or 3x128GB PMem or 12x32GB DRAM.費用対効果はNVMeがGood
Exploiting Directly-Attached NVMe Arrays in DBMS
10. ページロードが3秒を超えるとWeb Applicationの離脱率は非常に高くなる.0.5秒おきに20%のトラフィックが失われる
How *not *to structure your database-backed web applications: a study of performance bugs in the wild∗
11. 多くのワークロードでは,Insert/Updateされてから次にPoint Readされるまでのレイテンシは短い.一方で,Range Scanで読み込まれるまでのレイテンシは長い.8秒~85秒に至ることもある
ScaleDB: A Scalable, Asynchronous In-Memory Database
12. 多くのワークロードではOne-hit-wonder (一発屋) ratio が高い.キャッシュのサイズが小さいほどその割合は増える
FIFO queues are all you need for cache eviction
13. Cloud functions (FAAS) をずっとactiveにしておくアプローチは仮想マシンよりも高くつく
Using Cloud Functions as Accelerator for Elastic Data Analytics
14. 複数のデータストアを使うアプリケーションでは,少なくとも一つはトランザクショナルなDBMSを使用している
Data management in microservices: state of the practice, challenges, and research directions
Database Anomaly
Database Anomaly はいかに気づかれていないのか