サービス信頼性の階層
en : Service Reliability Hierarchy
https://gyazo.com/6bd7b3e9a0b56263f550f9b7e017aab2
▲ https://sre.google/sre-book/part-III-practices/ より
監視 (モニタリング)
監視しないことには、サービスが正常に動いているか判断できない
インシデント対応 (Incident Response)
オンコール対応は、それ自体が目的ではなく、より大きな使命のための手段
ポストモーテム (事後分析; Postmortem) / 根本原因解析 (Root Cause Analysis)
テスト (Testing)
何がうまくいかないかを理解したら、それを予防する
本番での問題発生を予防するためのテスト
キャパシティプランニング (Capacity Planning)
開発 (Development)
製品 (Product)
参考文献
Site Reliability Engineering: How Google Runs Production Systems