『SREの知識地図——基礎知識から現場での実践まで』
https://m.media-amazon.com/images/I/81EynDExalL._SY425_.jpg https://www.amazon.co.jp/SRE%E3%81%AE%E7%9F%A5%E8%AD%98%E5%9C%B0%E5%9B%B3%E2%80%94%E2%80%94%E5%9F%BA%E7%A4%8E%E7%9F%A5%E8%AD%98%E3%81%8B%E3%82%89%E7%8F%BE%E5%A0%B4%E3%81%A7%E3%81%AE%E5%AE%9F%E8%B7%B5%E3%81%BE%E3%81%A7-%E5%8C%97%E9%87%8E-%E5%8B%9D%E4%B9%85-ebook/dp/B0FN2KWBBN/ref=tmm_kin_swatch_0?_encoding=UTF8&coliid=I3IM09ITSZ85BD&colid=1ON3E7LU3XT3Y
ISBN:B0FN2KWBBN
(概要)
※この商品はリフロー型epubで作成されております。デバイスに合わせて文字の大きさやレイアウトが変更可能です。また,電子書籍内で検索をかけたり,マーカーを引いたり,自動読み上げを行うことも可能です。
2004年にGoogleが提唱したシステム運用の方法論「SRE(Site Reliability Engineering)」。ソフトウェア開発現場におけるアジャイル型への転換の中で、システムの利便性や安定性を「価値」ととらえ、その向上を目指すSREに注目が集まっています。大きなミッションである「システムの安定的な運用」のために、SREを担当するエンジニアには開発と運用、双方のスキルが必要です。 本書では、これからSREを学びたい、開発に取り入れたいというエンジニアを対象に、全体像を解説しつつ、今後の学習のための情報源を多く紹介します。基本的な知識だけでなく、代表的なプラクティスや組織の運用など、実践的な内容まで解説します。
(こんな方におすすめ)
・SREをこれから学びたいエンジニア
(目次)
第1章 SREとは
1.1 SREの概要
1.2 なぜSREが重要なのか
1.3 SREの価値観
1.4 SREに必要なスキル
1.5 本書の歩き方
1.6 まとめ
第2章 信頼性を定義して組織で運用する
2.1 SLOを理解するための4つの要素
2.2 なぜSLOが重要なのか
2.3 エラーバジェットの理解と活用
2.4 SLO導入ステップ
2.5 まとめ
第3章 システムの状態を観測する
3.1 システムを観測するための基本概念
3.2 モニタリングの基本
3.3 アラート通知の基本と運用
3.4 オブザーバビリティツールの構成
3.5 オブザーバビリティにおける5つの重要なシグナル
3.6 オブザーバビリティツールの選定と実装
3.7 まとめ
第4章 障害を学びにつなげる
4.1 ポストモーテム
4.2 ポストモーテムのフレームワーク
4.3 ポストモーテムの実践
4.4 再発防止策の重要性と効果的な実施方法
4.5 ポストモーテムの運用と文化
4.6 複数チームにまたがるポストモーテムの実施
4.7 ポストモーテムをテーマにしたワークショップの提案
4.8 まとめ
第5章 障害対応のプロセスや体制を作る
5.1 オンコール
5.2 オンコール担当者の役割
5.3 オンコール体制の設計
5.4 オンコールトレーニング
5.5 オンコールに対する手当て
5.6 Runbookの作成と活用
5.7 燃え尽き
5.8 SEVレベル
5.9 心理的・身体的ケア
5.10 まとめ
第6章 手作業を自動化し効率化する
6.1 トイルとは
6.2 トイルを管理する
6.3 まとめ
第7章 サービスのリリースを事前にレビューする
7.1 PRR
7.2 GitLabのPRR事例
7.3 PRRとほかのプラクティスの関係
7.4 まとめ
第8章 SREの組織構造
8.1 SREにおける組織構造の重要性
8.2 SREの組織構造を考えるヒント
8.3 SREの組織パターン
8.4 SREの実装モデルとパターン
8.5 SREの実装モデルとパターンの選び方
8.6 まとめ
第9章 SREの実践
9.1 とある組織におけるSREの実践事例
9.2 SREの実践のコツ
9.3 広がるSREの世界
9.4 SREと???
9.5 まとめ