SRE サイトリライアビリティエンジニアリング
1章 イントロダクション
SREとは、ソフトウェアエンジニアに運用チームの設計を依頼したときにできあがるものである。それを機能させるためには、「運用」を50%以下にする、エラーバジェットを導入する、といったプラクティスを導入するには、マネジメント層の協力なサポートも必要である。
メモ
GoogleのSREではチケット、オンコール、手作業などの「運用」は50%という上限がある。これを超えた場合は、それらの運用
を開発チームに引き渡す。残りの50%は開発をするのだ。
エラーバジェットを含め、これはマネージメント層の協力なサポートが必要。
ページされなかった障害こそポストモーテムが必要。モニタリングの欠陥があるということなのだから。
エラーバジェットの考え方は、100%を信頼性の目標とすることがいかなる場合にも間違っているという考えから来ている。
以下の3つの用語の使い分け。
- 即座に人間の対応が必要なものが「アラート」
- 即座ではないが人による対応が必要なのが「チケット」
- 何かが起きたときにだけ見るものが「ロギング」
手作業が必要な場合、事前に手順書を作っておくとMTTRが3倍改善したという実績がある。