라떼군 뉴스

클라우드플레어를 멈춘 2시간 28분, 왜 Workers KV가 모든 걸 무너뜨렸나

이 글은 다음 링크를 참고하여 인사이트를 더한 것입니다. 원문은 해당 링크에서 확인해주세요: https://blog.cloudflare.com/cloudflare-service-outage-june-12-2025/↗

2025년 6월 12일, Cloudflare는 2시간 28분간 전 세계적으로 광범위한 서비스 중단을 겪었습니다. 핵심 원인은 Workers KV라는 내부 분산 키-값 저장소의 백엔드 인프라 실패였습니다. 이 시스템은 Cloudflare의 수많은 제품(Access, WARP, Gateway, AI, Turnstile 등)의 인증, 설정, 데이터 전달의 중추 역할을 합니다.

특히 문제는 Workers KV가 하나의 외부 클라우드 스토리지에 과도하게 의존하고 있었다는 점입니다. 해당 스토리지 공급자의 장애가 그대로 Cloudflare 전체 장애로 확산되었고, Access 로그인, WARP 인증, 대시보드 로그인, 영상 스트리밍, AI 추론, 이미지 업로드 등 다양한 기능이 실패했습니다.

재난 대응 중 Cloudflare는 일부 서비스를 타 저장소로 긴급 전환하려 했으나, 이미 다수의 서비스가 동작 불능 상태였습니다. 서비스들이 KV에 과도하게 의존한 구조 자체가 리스크였고, 결과적으로 복구 이후에도 재시도 요청 폭주로 인해 완전 정상화까지 시간이 더 걸렸습니다.

Cloudflare는 현재:

Workers KV 백엔드를 자체 R2 기반 인프라로 이관 중이며,
각 제품별 장애 격리 개선,
캐시 재복원 로드 분산 도구 등을 도입 중입니다.

이번 사건은 단순한 외부 클라우드 의존 문제가 아니라, 내부 아키텍처 의존성과 장애 전파에 대한 경각심을 일깨우는 대표적인 사례입니다.

클라우드플레어를 멈춘 2시간 28분, 왜 Workers KV가 모든 걸 무너뜨렸나

Workers KV 기반 구조가 실패하면서 Cloudflare 서비스 대규모 장애.
Access, WARP, Gateway 등 핵심 제품이 줄줄이 중단된 사건의 전말.

높은 자립성을 자랑하던 플랫폼도, 핵심 의존성 하나가 무너지면 무력해진다. 내부 기술 스택에 대한 과신은 최대의 리스크가 된다.

#클라우드플레어 #워커스KV #서비스장애 #제로트러스트 #인프라설계 
https://news.mrlatte.net/posts/2025/06/14/cloudflare-kv-outage/

June 14, 2025 ∙ 클라우드플레어 워커스KV 서비스장애 제로트러스트 인프라설계