A decade of major cache incidents at Twitter
https://danluu.com/cache-incidents/
Dan Luu
による
Twitter
の過去のインシデントの振り返り
大規模な障害には
キャッシュ
が関わっている
キャッシュロジックによる障害ではなく、フィードバックループが暴走した結果であることが多い
相対的に、キャッシュはスタック内のその下にある
パフォーマンス
の異常(
カーネル
、
ファームウェア
、
ハードウェア
など)の影響を受けやすい
カーネルで多くの時間を費やす
Twitter memcachedでは80%の見積
キャッシュサーバーは少数のスレッドを実行することが多いため、キャッシュは、同じ基盤となるリソース(
CPU
、
メモリ
、
ディスク
など)を共有する他のワークロードによって不足する可能性が比較的高くなる