ポストモーテム
目的
再発防止
根本原因を特定し、同様のインシデントを防ぐ
再発の可能性や影響を削減するための効果的な予防策が確実に導入されるようにする
組織学習
失敗から学び、チームや会社の知見を蓄積する
心理的安全性の醸成
個人責任を問わない文化を作り、率直な共有を促す
残すこと
table:_
概要 発生したインシデントの簡単な説明
影響範囲 どのサービス・ユーザーに影響があったか
タイムライン 発生〜検知〜対応〜復旧までの時系列
原因 直接原因、根本原因
対応内容 実際に取ったアクション
再発防止策 改善点や次に向けた取り組み
学び 今回のインシデントから得た教訓
やること
24時間以内にやると良いという話がある
詳細が記憶されているうちにやる
失敗した、改善したいという熱が冷めないうちにやる
招待する人
インシデントの復旧に関与した人は全員
他の関係者も呼ぶと良い
人を責めない、システムを責める
タイムラインの振り返り
インシデント中に発生した一連のイベントをドキュメント化する
誰がそのアクションをしたかも記録する
イベントを淡々と記載する
アクションについて議論の余地があるような記載はしない
文脈や背景を足してく
正しい行動、間違った行動、両方に対して
正しい行動だった場合、それを他の人間も学んで知識を獲得する必要がある