エラーバジェット
SREと開発メンバーをはじめとしたステークホルダーらが信頼性と新機能追加のシーソーゲームを乗り切るための定量的な考え方を指す 以下のプロセスによって進行する
1. 可用性やパフォーマンスをSLOに設定する
SLOは所定期間内に定義した状態が満たされている期間の割合として定義される
2. 実際の値は中立な第三者であるモニタリングシステムが計測する
3. 実測値と目標の差分が所定期間内の「損失可能な信頼性」という予算である
4. 計測された期間がSLOを超えている間は新しいリリースが行える
SLOが未達成であったりバジェットの減少が普段より速いならば、リリース速度を落とすか、ロールバックする
一例を考える
可用性を定義すると最大停止時間が計算できる
これが今回のエラーバジェットである
所定の期間におけるエラーバジェットの減少速度がわかれば、それに応じた意思決定が行える
本書で挙げられている方針
バジェットが尽きた際にロールバックしてバグチケットとして差し戻す
あらかじめオンコールのページャーローテーションに開発チームを加えておく
第三者の機械的なメトリクス監視システムを導入し、定量的に判断するのが重要
なによりもこれで開発運用間が喧嘩しなくてすむ