本を読む:入門監視
めも
ツールありきで監視を考えない
監視設定の自動化は必ずする
監視サービスの5要素
データ収集
データストレージ
可視化
分析とレポート
アラート
ユーザー視点での監視
できるだけユーザに近いところから監視を始める
作るのではなく買う
安いから
SaaSの方が良い(運用面、コスト面)
アラート
アラートにメールを使うのをやめる
即時性のあるもの
SMSやPaderDuty
注意が必要だがすぐにアクションは必要ないアラート
社内のチャットなど
履歴や診断のためのアラート
ログファイルへ
手順書を書く(runbook)
これはなんのサービスで、何をするものか
責任者は誰か
どんな依存性を持っているのか
インフラの構成はどのようなものか
どんなメトリクスやログを起こっていてどういう意味なのか
どんなアラートが設定されていて、それらの理由は何か
固定の閾値を決めることがだけが方法ではない
移動平均や、信頼区間、標準偏差をうまく適用する
アラートを削除し、チューニングする
メンテナンス期間を使う
まずは自動復旧を試す
オンコール
誤報を修正する
場当たり的な対応を減らす
上手にオンコールローテーションを組む
インシデント管理
振り返り
監視戦略
ビジネスKPI
顧客はアプリケーションあるいはサービスを支えているか
儲かっているか
成長しているか、縮小しているか、停滞しているか
どのくらい利益が出ているか、収益性は改善しているか
顧客は喜んでいるか