オンコールシフトの量と質
オンコールシフト
の量と質
量 : オンコール業務に費やした時間の割合で計算
最低でも 50 % は
エンジニアリング
に充てて、25 % 以下を
オンコール
に、残り (25 % 程度?) を通常の
運用
に
常に 2 人の
オンコールエンジニア
がいるとすると、単一サイトで最低 8 人の
SRE エンジニア
が必要
デュアルサイトだと、各 6 人ずつが妥当
マルチサイトの利点 :
夜勤
をなくせる、オンコールエンジニアの数を制限することで本番システムと接触しないことを減らせる
質 : オンコールシフト中に発生した
インシデント
の数で計算
インシデントを扱い、
ポストモーテム
などの事後処理のために十分な時間が必要 (平均 6 時間程度)
時間外サポートには適切な補償を
参考文献
Site Reliability Engineering: How Google Runs Production Systems