H
하베스트
AI로 요약된 콘텐츠

2025년 10월 미국 버지니아 북부(US-EAST-1) AWS 서비스 장애 요약

2025년 10월 19~20일, 미국 버지니아 북부 리전에서 Amazon DynamoDB의 결함으로 시작된 AWS 대규모 서비스 장애가 발생했습니다. 이 장애는 DynamoDB에서 시작해 EC2, NLB 등 주요 서비스에 연쇄적으로 영향을 미쳤고, AWS는 원인과 대응, 재발 방지 조치까지 자세하게 밝혔습니다. 아래에서는 시간순으로 사건의 경과와 각 서비스에 미친 영향을 단계별로 자세히 정리합니다.


1. 장애의 시작: DynamoDB DNS 시스템 결함 발생

2025년 10월 19일 밤 11:48(미국 태평양 표준시, PDT), DynamoDB에서 비정상적으로 높은 API 오류율이 감지되면서 장애가 시작됐습니다. 이 문제는 DynamoDB DNS 자동화 시스템의 잠재 결함으로 인한 것이었습니다.

  • DynamoDB는 수십만 개의 DNS 레코드를 통해 대규모 로드밸런서를 관리하고, 이들 레코드는 자동화 시스템인 DNS PlannerDNS Enactor가 Route53에서 갱신합니다.
  • 이번 사건은 두 개의 독립적으로 동작하는 DNS Enactor 간의 드문 경쟁 상태(race condition)에 의해 한 Enactor가 오래된 DNS 플랜을 우연히 적용했고, 이것이 최종적으로 최신 플랜을 삭제하면서 서비스 엔드포인트(dynamodb.us-east-1.amazonaws.com) DNS 레코드가 빈 상태로 남게 되었습니다.
  • 이로 인해 외부뿐만 아니라 내부 AWS 서비스(예: Lambda, Redshift 등) 역시 DynamoDB에 접근할 수 없었습니다.

"이번 장애의 근본 원인은 DynamoDB의 DNS 관리 시스템 내에 존재했던 잠재적인 경쟁 상태로, 이로 인해 서비스 지역 엔드포인트의 DNS 레코드가 잘못 비워지는 현상이 발생했습니다."

AWS 엔지니어팀은 곧 문제를 인지했고, 10월 20일 1:15엔 내부 툴링 복구 및 임시 조치에 성공, 2:25쯤 DNS 정보를 모두 복구했습니다. 캐시된 DNS 레코드가 만료되면서 2:40까지 모든 고객들이 정상적으로 DynamoDB에 연결할 수 있게 됐습니다.


2. EC2: 인스턴스 신규 생성 실패와 복구 과정

장애 시작과 동시에, 고객들은 EC2 인스턴스 생성 실패 및 API 지연 현상도 겪게 됩니다.

  • EC2 인스턴스 생성 및 관리에 필요한 DropletWorkflow Manager(DWFM)와 Network Manager도 DynamoDB에 의존합니다.
  • 장애 발생 후 기존에 실행 중이던 EC2 인스턴스는 정상적으로 유지되었지만, DWFM과 droplets(EC2 물리 호스트) 간의 임대(lease) 갱신이 실패하여, 장애 기간 동안 신규 인스턴스 생성은 불가능해집니다.
  • DynamoDB API가 복구된 후 DWFM이 모든 droplet과 임대를 재설정해야 하는데, 장애 동안 expired된 임대로 인해 작업량이 폭증하며 시스템이 정체(congestive collapse)에 빠지고 맙니다.
  • 여러 번의 수동 복구 시도 끝에 엔지니어팀이 DWFM 호스트를 순차적으로 재시작하고, 큐가 비워지며 결국 5:28쯤 복구가 시작됩니다.
  • 이때부터도 네트워크 정보 전파 작업이 지연되면서, 인스턴스가 뜨더라도 통신 문제가 일부 존재했습니다. 10:36경 네트워크 전파 지연이 해소되고, 13:50에 모든 EC2 서비스가 정상화되었습니다.

"신규 EC2 인스턴스는 네트워크 연결을 받지 못해, 성공적으로 실행되더라도 실질적으로 사용할 수 없는 상태였습니다."


3. NLB(Network Load Balancer): 연결 오류 및 장애 복구

EC2 장애 여파로, NLB(Network Load Balancer) 서비스와 이를 사용하는 서비스들도 연결 오류를 폭넓게 경험했습니다.

  • 10월 20일 새벽 5:30부터 오후 2:09까지, 일부 NLB에서 연결 오류가 증가했습니다.
  • 원인은 네트워크 전파 지연으로 인해 NLB 헬스체크(health check)가 실패했고, 건강한 노드임에도 불구하고 비정상으로 인식되어 DNS에서 제거 및 복구가 반복되는 비정상 상태가 이어졌습니다.
  • 엔지니어들은 오전 9:36에 자동 헬스체크 페일오버(AZ DNS failover)를 비활성화하여 문제를 진정시켰고, 이후 EC2가 정상화되며 NLB도 오후 2:09에 완전히 복구됐습니다.

"헬스체크 결과가 교대로 실패와 성공을 반복하면서, NLB 노드와 백엔드 대상이 DNS에서 제거되었다 다시 서비스로 복귀하는 현상이 발생했습니다."


4. Lambda, ECS/EKS/Fargate, Redshift 등 AWS 주요 서비스 연쇄 장애

DynamoDB, EC2, NLB 장애는 여러 AWS 핵심 서비스에 연속적인 영향을 미쳤습니다.

  • Lambda: DynamoDB 엔드포인트 장애로 함수 생성·업데이트와 SQS/Kinesis 관련 이벤트 처리, Invocation에 오류 발생. backlog 복구 후 2:15 PM에 정상화.
  • ECS, EKS, Fargate: 컨테이너 생성 실패와 클러스터 확장 지연이 동반, 2:20 PM까지 복구.
  • Amazon Connect: 전화/채팅/상담 사례 등 처리 불가, 장애 해소 후에도 일부 기능(채팅)은 추가 장애 지속.
  • AWS STS, IAM/Identity Center: 인증 실패 및 지연, 콘솔 로그인 불가 등, DynamoDB가 복구되며 이슈 해소.
  • Redshift: 쿼리 및 클러스터 생성/변경 불가, EC2 인스턴스 교체 시도도 막혀 클러스터 이용 불가가 계속됨.

"DynamoDB 엔드포인트가 장애를 일으키자 AWS 내부 서비스뿐 아니라, 신규 함수 생성·업데이트, SQS 큐 polling, Lambda invocation까지 광범위한 장애가 연쇄적으로 발생했습니다."

"IAM 연동이 필요한 Redshift 쿼리도 일시적으로 전 AWS 리전에서 영향을 받았고, 'local' 사용자만 정상적으로 연결할 수 있었습니다."

또한 Airflow, Outposts, Support Center 등 DynamoDB나 신규 EC2 인스턴스에 의존하는 서비스도 유사한 패턴으로 장애를 겪었습니다.


5. 재발 방지 및 개선 사항

AWS는 이번 사건으로부터 다양한 교훈과 개선책을 마련했습니다.

  • DynamoDB DNS Planner 및 Enactor의 자동화 시스템은 일시적으로 전 세계적으로 중단했고, 경쟁 상태와 플랜 적용 보호책을 추가할 예정입니다.
  • NLB에는 헬스체크 실패 시 한 번에 너무 많은 용량이 AZ 페일오버로 빠지지 않도록 velocity control 기능을 도입합니다.
  • EC2의 경우, DWFM 복구 흐름을 강화하는 내부 테스트를 추가하고, 스케일 아웃 및 부하 상황에 적절히 대처할 수 있는 스로틀링 메커니즘을 개선할 계획입니다.
  • 재발 방지를 위해 모든 관련 AWS 서비스에 대한 추가적인 분석 및 대응책을 계속해서 발전시킬 계획입니다.

"가능한 한 빠르게 문제를 복구하고, 향후 유사한 장애를 미연에 방지하기 위해 모든 노력을 기울이겠습니다."


마무리

이번 AWS N. Virginia(US-EAST-1) 리전 장애는 DynamoDB DNS 시스템의 경쟁 상태에서 시작되어 EC2, NLB, Lambda 등 수많은 클라우드 서비스로 파급되었습니다. AWS는 투명한 사고 분석과 구체적 재발 방지 계획을 내세웠으나, 대규모 클라우드 인프라에서의 상호 의존성과 자동화 시스템의 복잡성이 얼마나 큰 영향을 미칠 수 있는지 보여주는 사례였습니다. 이런 장애를 계기로 클라우드 인프라 운영의 신뢰성과 복원력에 대한 고민이 더욱 깊어질 것으로 보입니다.

"AWS 서비스가 고객 비즈니스에 얼마나 중요한지 잘 알기에, 이번 사고로 끼친 피해에 깊이 사과드리며 반드시 더 나은 서비스를 만들겠습니다."

요약 완료: 2025. 10. 24. 오전 2:28:29

이런 요약이 필요하신가요?

하베스트가 원클릭으로 요약해드립니다

5초 요약
AI 자동 분석
📱
모든 기기
웹, iOS, Chrome
🔍
스마트 검색
언제든 재발견
요약 시작하기
나도 요약하기