信頼性の柱
サービスがダウンしないとか、マルチAZとかのあたりだね
5つの設計原則
障害から自動的に復旧する
復旧手順をテストする
水平方向にスケールしてワークロード全体の可用性を高める
キャパシティを推測することをやめる
オンプレの障害のよくある原因はリソースの飽和状態で詰むパターン。
クラウドでは適切にリソースをスケールさせれば無問題。
hiroki.icon
スケールが間に合うような感じの考慮が必要な場合もあるよね。
ServiceAutoScalling
オートメーションで変更を管理する