オンコールシフトの量と質
オンコールシフトの量と質
量 : オンコール業務に費やした時間の割合で計算
最低でも 50 % はエンジニアリングに充てて、25 % 以下をオンコールに、残り (25 % 程度?) を通常の運用に
常に 2 人のオンコールエンジニアがいるとすると、単一サイトで最低 8 人の SRE エンジニアが必要
デュアルサイトだと、各 6 人ずつが妥当
マルチサイトの利点 : 夜勤をなくせる、オンコールエンジニアの数を制限することで本番システムと接触しないことを減らせる
質 : オンコールシフト中に発生したインシデントの数で計算
インシデントを扱い、ポストモーテムなどの事後処理のために十分な時間が必要 (平均 6 時間程度)
時間外サポートには適切な補償を
参考文献
Site Reliability Engineering: How Google Runs Production Systems