Summary of the Amazon DynamoDB Service Disruption in Northern Virginia (US-EAST-1) Region
https://aws.amazon.com/jp/message/101925/
DynamoDBのregional endpoint (DNSレコード) を管理するシステムにrace conditionが存在し、レコードが消えてregional endpointに割り当てたIPが空になった
↑によりEC2が使う内部システム (DWFM; Droplet Workflow Manager) が壊れて輻輳し新規インスタンスを立ち上げられなくなる
DWFMは内部でDynamoDBを使っている
DWFMの輻輳によりネットワーク設定の遅延が生じる
NLBがネットワーク設定がまだ完了していないEC2インスタンスを投入してしまい、ヘルスチェックが成功・削除を行き来するようになった
内部でNLBを使うLambdaなどのサービスが巻き添えを食らう
code:図.txt
DynamoDB DNS障害(根本原因)
↓
├→ 直接影響: Lambda, STS, IAM, Redshift等
│ (DynamoDBに直接依存するサービス)
│
└→ EC2 DWFM障害(第1派生)
↓
├→ 新規インスタンス起動失敗
│
└→ Network Manager遅延(第2派生)
↓
└→ NLB障害(第3派生)
↓
└→ さらなる影響: Lambda, Connect等