変更失敗率
from Four Keys
Change failure rate_
リリースやデプロイが何らかの問題を抱えてロールバックされる率
e.g. 不具合が見つかった、設定ミスがあった
15回に1回とか、2回に1回とかの率
本番環境での障害を引き起こしたdeployの割合
デプロイ後に障害やロールバックが必要になる割合
低いほど品質が高い
datadog
定義: change failureとなったdeployment数 / 総deployment数
「failure」の検出はincidentベースではなく、deployment側のシグナルが中心:
Rollback検出: 以前デプロイされたバージョンが再デプロイされたら自動検出(Git metadataやversion tagが必要)
Rollforward検出: revert PRやhotfixラベルなどPRメタデータのパターンマッチ
Incident連携(任意): Datadog Incident Managementと紐づければそれも failure シグナルになる
つまり障害(incident)が起きてなくても、rollback / revert PRがあれば failure としてカウントされる。逆にincidentが起きてないだけならCFRは「未計測」じゃなくて単に「分子が増えない」=0%(またはその期間に対応するdeploymentが全部成功扱い)になる。
/mrsekut-book-4295004901/054