SRE
SREとは?DevOpsとの違い
SRE研修
SRE サイトリライアビリティエンジニアリング
1章 イントロダクション
2章 SREの観点から見たGoogleのプロダクション環境
3章 リスクの許容
4章 サービスレベル目標
5章 トイルの撲滅
6章 分散システムのモニタリング
7章 Googleにおける自動化の進化
8章 リリースエンジニアリング
9章 単純さ
10章 時系列データからの実践的なアラート
11章 オンコール対応
12章 効果的なトラブルシューティング
13章 緊急対応
14章 インシデント管理
15章 ポストモーテムの文化:失敗からの学び
16章 サービス障害の追跡
17章 信頼性のためのテスト
18章 SREにおけるソフトウェアエンジニアリング
19章 フロントエンドにおけるロードバランシング
20章 データセンターでのロードバランシング
21章 過負荷への対応
22章 カスケード障害への対応
23章 クリティカルな状態の管理:信頼性のための分散合意
24章 cronにおける分散定期スケジューリング
25章 データ処理のパイプライン
26章 データの完全性:What You Read Is What You Wrote
27章 大規模なプロダクトのローンチにおける信頼性
28章 SREの成長を加速する方法:新人からオンコール担当、そしてその先へ
29章 割り込みへの対処
30章 SREの投入による運用過負荷からのリカバリ
31章 SREにおけるコミュニケーションとコラボレーション
32章 進化するSREのエンゲージメントモデル
33章 他の業界からの教訓
セキュアで信頼性のあるシステム構築
システムのセキュリティと信頼性は表裏一体です。セキュリティは、プロダクトの品質、パフォーマンス、可用性と密接にかかわるため、スケーラブルなシステムの設計と運用にとって極めて重要です。本書は、GoogleのセキュリティとSREのエキスパートが、根本からセキュアで、スケーラブルかつ信頼性の高いシステムを設計するためのベストプラクティスを紹介します。
既刊書『SRE サイトリライアビリティエンジニアリング』と『サイトリライアビリティワークブック』は、企業がソフトウェアシステムをスムーズに構築、デプロイ、監視、保守するうえで、サービスライフサイクル全体への取り組みが重要な理由とその方法を解説しました。本書では、システムの設計、実装、保守に関する考え方と実践法を解説します。また、ベストプラクティスに取り組むために必要となる組織の文化についても説明します。