サービス信頼性の階層
en :
Service Reliability Hierarchy
https://gyazo.com/6bd7b3e9a0b56263f550f9b7e017aab2
▲
https://sre.google/sre-book/part-III-practices/
より
監視
(
モニタリング
)
監視しないことには、サービスが正常に動いているか判断できない
インシデント対応
(
Incident Response
)
オンコール対応は、それ自体が目的ではなく、より大きな使命のための手段
ポストモーテム
(
事後分析
;
Postmortem
) /
根本原因解析
(
Root Cause Analysis
)
テスト
(
Testing
)
何がうまくいかないかを理解したら、それを予防する
本番での問題発生を予防するためのテスト
キャパシティプランニング
(
Capacity Planning
)
開発 (Development)
製品 (Product)
参考文献
Site Reliability Engineering: How Google Runs Production Systems