Summary of the Amazon DynamoDB Service Disruption in Northern Virginia (US-EAST-1) Region
DynamoDBのregional endpoint (DNSレコード) を管理するシステムにrace conditionが存在し、レコードが消えてregional endpointに割り当てたIPが空になった ↑によりEC2が使う内部システム (DWFM; Droplet Workflow Manager) が壊れて輻輳し新規インスタンスを立ち上げられなくなる DWFMの輻輳によりネットワーク設定の遅延が生じる
NLBがネットワーク設定がまだ完了していないEC2インスタンスを投入してしまい、ヘルスチェックが成功・削除を行き来するようになった code:図.txt
DynamoDB DNS障害(根本原因)
↓
├→ 直接影響: Lambda, STS, IAM, Redshift等
│ (DynamoDBに直接依存するサービス)
│
└→ EC2 DWFM障害(第1派生)
↓
├→ 新規インスタンス起動失敗
│
└→ Network Manager遅延(第2派生)
↓
└→ NLB障害(第3派生)
↓
└→ さらなる影響: Lambda, Connect等