信頼性の柱 - 学習

信頼性の柱

サービスがダウンしないとか、マルチAZとかのあたりだね

5つの設計原則

障害から自動的に復旧する

復旧手順をテストする

水平方向にスケールしてワークロード全体の可用性を高める

キャパシティを推測することをやめる

オンプレの障害のよくある原因はリソースの飽和状態で詰むパターン。

クラウドでは適切にリソースをスケールさせれば無問題。

hiroki.iconスケールが間に合うような感じの考慮が必要な場合もあるよね。ServiceAutoScalling

オートメーションで変更を管理する