インシデント管理プロセス
en : Incident Management Process
『Site Reliability Engineering: How Google Runs Production Systems』 より
Google のインシデント管理プロセスは、インシデント指揮システム (Incident Command System) に基づく
明快で拡張性 (スケーラビリティ) が高いらしい
適切に設計されたインシデント管理プロセスが持つ機能
責任の再帰的な分離
インシデントに関与するすべての人が自分の役割を知っている (他の人の縄張りに迷わない)
負荷が過大になったメンバーは、計画リーダー (planning lead) にスタッフの増員を依頼する
そして、タスクを他の人に委任する
あるいは、役割リーダー (role leader) は、システムコンポーネントを同僚に委任し、同僚は高レベルの情報をリーダーに報告
インシデント指揮 (Incident Command)
インシデント指揮官 (incident commander) がインシデントについての高水準の情報を保持
インシデントタスクフォースを構成し、責任を割り当てる
他の人に割り当てた責任以外はすべてインシデント指揮官がもつ
運用作業 (Operational Work)
コミュニケーション
計画