안녕하시렵니까! '알고보면 쓸모있는 신기한 네트워크'의 Jake 입니다 예에에~😎

😃Jake : 아.. 일 하기 싫다.. 하면서 서칭 작업을 하고 있었는데 .. 왜 Perplexity가 안되는걸까 ???????????????????????
오늘(10월 20일) 혹시 하던 게임이 갑자기 튕기거나, 자주 쓰던 앱이 먹통이 되진 않았어? '아 왜 나만 안 돼!' 싶었는데, 알고 보니 전 세계가 난리였더라고! 😱
많은 사람들이 이용하는 퍼플렉시티(Perplexity) AI 검색부터 배틀그라운드, 로블록스 같은 게임, 심지어 삼성월렛이나 코인베이스 같은 금융 서비스까지! 이 모든 게 한순간에 마비됐던 이유.
Jake : ㅋㅋㅋㅋ 삼성월렛.. 난 아이폰이라 애플페이.. 부럽다... 삼성..
오늘은 이 '인터넷 대란'의 중심에 있었던 아마존 웹 서비스(AWS) 장애에 대해 쉽고 재밌게 파헤쳐 볼게. 대체 무슨 일이 있었던 걸까? 🚀
사건의 발단: 모든 길은 버지니아로 통한다? (US-EAST-1)
먼저 AWS가 뭔지 알아야 해. AWS는 아마존이 운영하는 클라우드 서비스인데, 쉽게 말해 '인터넷 세상의 거대한 땅 주인(혹은 건물주)'라고 생각하면 돼. 수많은 기업(퍼플렉시티, 배그, 넷플릭스 등)이 자기들만의 건물을 짓는 대신, AWS라는 건물에 세 들어 사는 거야.
그런데 이 AWS 건물은 전 세계 여러 도시에 '지점'을 두고 있어. 이걸 전문 용어로 리전(Region)'이라고 불러.
이번에 문제가 터진 곳은 미국 버지니아 북부(US-EAST-1) 리전이야. 이 리전은 그냥 '지점 1'이 아니야. AWS의 가장 오래되고 가장 큰 '본점(1호점)' 격인 곳이지. 전 세계 수많은 서비스가 여기서 시작되고, 또 많은 서비스가 이곳을 기반으로 연결되어 있어.
진짜 범인은 'DNS'? 🕵️ (feat. DynamoDB)

그럼 이 '본점'에서 대체 무슨 일이 벌어진 걸까?
AWS의 공식 발표에 따르면, 문제의 시작은 DynamoDB라는 서비스의 DNS 해석 문제였어.
말이 너무 어렵지? 바로 비유 들어갈게!
- DynamoDB (다이나모DB): 이건 AWS가 제공하는 초고속 만능 창고(데이터베이스)야. 앱이나 게임의 회원 정보, 아이템, 점수 같은 핵심 데이터를 어마어마하게 빠른 속도로 저장하고 꺼내 쓸 수 있게 해줘. 수많은 서비스가 이 창고에 의존하고 있지.
- DNS (도메인 네임 시스템): 이건 인터넷 네비게이션(혹은 주소록)이야. 우리가 '알쓸신네 블로그'라고 검색하면, DNS가 실제 컴퓨터가 알아듣는 숫자 주소(IP 주소)로 '길 안내'를 해주는 거지.
즉, 이번 장애는 '네비게이션(DNS)'이 '만능 창고(DynamoDB)'로 가는 길을 갑자기 잃어버린(해석 문제) 상황인 거야! 🗺️
창고 자체가 불타거나 무너진 건 아닌데, 창고로 가는 길이 막혀버리니 아무도 물건을 넣거나 뺄 수 없게 된 거지.
그래서 누가, 얼마나 피해를 봤는데? (글로벌 서비스 대혼란)

이 '만능 창고'로 가는 길이 막히니까, 이 창고를 쓰던 서비스들이 줄줄이 멈춰선 거야. 이걸 연쇄 장애라고 해.
- AI 🤖: 요즘 핫한 AI 검색 엔진 퍼플렉시티(Perplexity)가 완전히 멈췄어.
😓Jake : 아니 나도 서칭을 해야하는 상황인데 " 알수없는 오류?"인가 웹은 보여지는데 서칭이 아예 안되고 있더라고 옆 엔지니어가 퍼플렉시티가 터졌다길래 알았지뭐야 ;; - 게임 🎮: 배틀그라운드(PUBG), 로블록스, 포트나이트 등 인기 게임들이 서버 접속 불량, 매치메이킹 실패를 겪었지. (어쩐지.. 어제따라 치킨 먹기 힘들더라.. 🍗)
😓Jake : 친구가 배그를 많이 하는데 배그도 멈췄다네 ? 근데 나는 배그의 서버가 클라우드 AWS를 사용하는지 모르고 있었는데 신기하더라구 로블록스는 원래 클라우드를 쓰는 건 알고 있었는데 말이지 .. - 금융/결제 💸: 미국 최대 암호화폐 거래소 코인베이스(Coinbase), 간편결제 벤모(Venmo)도 접속 불가!
- 엔터테인먼트 🎬: 디즈니플러스, 스냅챗, 심지어 아마존의 AI 비서 알렉사(Alexa)도 먹통이 됐어.
- 국내 🇰🇷: 삼성월렛과 삼성닷컴 일부 서비스도 영향을 받았어.
😊Jake: 추가로 개발자 분이 말해줬는데 버셀(Vercel)도 멈췄다고 하더라구 이런 슈파베이스나 이런 클라우드 DB와 같은 것들로 배포한 서비스들이 전부 무력화 되었다고 하더라...
이 모든 게 단 하나의 리전(US-EAST-1) 문제에서 시작됐다는 게 이번 사태의 핵심이야. 🤯 우리가 얼마나 거대한 클라우드 인프라에 의존하고 있는지, 그리고 그 '본점' 하나가 멈추는 게 얼마나 큰 파급력을 가졌는지 제대로 보여준 거지.
🚀 엔지니어를 위한 TMI (Tech More Inside)

자, 이제 우리 '알쓸신네' 구독자들 중 현업 개발자, 엔지니어들을 위한 심화 학습 시간이야!
Jake : 사실 일반인들도 들어도 됩니다만.. 하하 ..
- 왜 하필 US-EAST-1인가?: '버지니아 리전'은 AWS의 'Classic' 리전으로, 가장 많은 서비스가 가장 먼저 출시되는 곳이야. 많은 글로벌 서비스의 컨트롤 플레인(Control Plane)이나 기본 엔드포인트가 이 리전에 설정된 경우가 많아. 비용도 저렴한 편이었지. 하지만 반대로 말하면 가장 복잡하고 장애 발생 빈도도 상대적으로 잦은 '뜨거운 감자' 같은 곳이기도 해.
- DNS와 DynamoDB API 엔드포인트: 장애 리포트를 보면, DynamoDB 서비스 자체의 장애라기보다는 'DynamoDB API 엔드포인트'의 DNS 해석 문제라고 했어. 즉, DynamoDB는 멀쩡히 돌고 있었을지 몰라도, 서비스들이 DynamoDB에 명령을 내리기 위해 호출하는 '접수 창구(API 엔드포인트)'의 주소를 찾지 못했다는 거야.
- Multi-Region과 Failover의 중요성: 이번 사태는 단일 리전(Single-Region) 아키텍처의 취약점을 극명하게 보여줬어. 현업에서는 이런 사태를 대비해 다중 리전(Multi-Region) 아키텍처를 설계하는 게 얼마나 중요한지 다시 한번 깨닫게 됐을 거야.
- Route 53의 헬스 체크 및 장애 조치(Failover) 라우팅: AWS의 DNS 서비스인 Route 53을 사용해 한쪽 리전(예: US-EAST-1)에 문제가 생기면 자동으로 트래픽을 다른 리전(예: US-WEST-2)으로 돌려버리는 전략이 필수적이라는 거지.
- 데이터 이중화(Replication): DynamoDB를 쓴다면 '글로벌 테이블(Global Tables)' 기능을 활용해 여러 리전에 실시간으로 데이터를 복제해두는 것도 좋은 전략이야.
마무리: 인터넷 세상에 '절대'는 없다!
오늘 이야기 어땠어? ✨ 간단히 요약하면, '인터넷 수도' 격인 AWS 버지니아(US-EAST-1) 리전에서, '네비게이션(DNS)'이 '핵심 창고(DynamoDB)'로 가는 길을 잃는 바람에, 전 세계 서비스가 줄줄이 멈춰버린 대형 사건이었어.
클라우드 서비스가 우리 삶을 엄청나게 편리하게 해줬지만, 이렇게 거대한 인프라 한곳에 문제가 생기면 전 세계가 마비될 수 있다는 걸 제대로 보여준 사례지. (계란을 한 바구니에 담지 말라는 격언이 떠오르네!)
아마 많은 기업이 이번 장애를 계기로 자신들의 서비스를 더 튼튼하게 만들(다른 리전으로도 분산하는) 고민을 시작했을 거야.
다음엔 또 어떤 신기한 네트워크 이야기로 돌아올까? 궁금한 주제나 오늘 내용 중 이해 안 가는 거 있으면 언제든 댓글 달아줘!
그럼 오늘은 여기까지! 안녕! 👋
'Jake의 알쓸신네' 카테고리의 다른 글
| [알쓸신네#8] 🔒 주소창 자물쇠의 비밀! SSL, HTTPS, 그리고 SSL VPN까지 싹 다 알려줄게! (0) | 2025.10.30 |
|---|---|
| [알쓸신네#7]"넌 누구냐?" MAC 주소와 ARP 테이블로 네트워크 범인 찾기! (0) | 2025.10.21 |
| [알쓸신네#5] 랜선 하나로 전원까지 해결? UTP 케이블의 놀라운 진화와 PoE의 모든 것! 😎 (0) | 2025.10.16 |
| [알쓸신네#4] 넷플릭스 로딩의 비밀, '꼼꼼이' TCP와 '스피드광' UDP의 숨 막히는 대결! (0) | 2025.10.14 |
| [알쓸신네#3] 📮모든 통신의 시작과 끝! 인터넷 세상의 신분증 '엔드 디바이스' 파고들기 (0) | 2025.10.13 |