SRE の責務
https://scrapbox.io/files/6799a533a513f475e76fbf1c.png
SRE の責務を整理すると以下のようになる。順番は高度順。
1️⃣ モニタリング
2️⃣ インシデント対応
3️⃣ ポストモーテム
4️⃣ テスト
5️⃣ キャパシティプランニング
6️⃣ 開発者体験の向上
7️⃣ プロダクト価値の向上
1️⃣ モニタリング
システムの健全性を継続的に監視し、問題を早期に発見・対応することを目的とします。
具体的なタスク:
メトリクスの収集と可視化(CPU 使用率、メモリ使用率、レスポンスタイムなど)
アラートルールの設定と調整
ログ分析とエラー検知
ダッシュボードの作成・メンテナンス
2️⃣ インシデント対応
システム障害が発生した際の迅速な対応と復旧を行います。止血を最優先に行い、復旧した後に根本原因を特定します。
具体的なタスク:
インシデント発生時の初動対応
影響範囲の特定と状況の共有
一時的な対処(回避策の実施)
恒久的な解決策の実装
3️⃣ ポストモーテム
インシデント後の振り返りを行い、再発防止策を検討します。
具体的なタスク:
インシデントの詳細な分析
タイムライン作成
根本原因の特定
再発防止策の立案と実施
4️⃣ テスト
システムの信頼性を確保するためのテスト戦略を立案・実施します。
具体的なタスク:
負荷テストの実施
カオスエンジニアリングの導入
自動テストの整備
復旧手順の検証
5️⃣ キャパシティプランニング
システムリソースの適切な計画と管理を行います。
具体的なタスク:
リソース使用状況の分析
将来的な需要予測
スケーリング戦略の立案
コスト最適化の検討
6️⃣ 開発者体験の向上
開発チームの生産性を向上させるための施策を実施します。
具体的なタスク:
CI/CD パイプラインの改善
開発生産性の可視化
ツール・ライブラリの更新管理
ドキュメンテーションの整備
7️⃣ プロダクト価値の向上
信頼性とビジネス価値のバランスを取りながら、プロダクトの改善を行います。
具体的なタスク:
パフォーマンス最適化
セキュリティ対策の実施
技術的負債の解消
アーキテクチャの改善