2025年6月12日,全球领先的互联网基础设施和安全服务提供商Cloudflare经历了一场严重的服务中断。这次事件波及了Cloudflare多项关键服务,包括Workers KV、WARP、Access、Gateway、Images、Stream、Workers AI、Turnstile及部分Cloudflare控制面板,全球范围内的众多用户使用的相关服务均受到了不同程度的影响。此次中断持续时间超过两个半小时,成为Cloudflare近年来影响范围最广、时间最长的服务事故之一。事件的根本原因归结于Workers KV服务所依赖的存储基础设施发生故障,而这其中还涉及第三方云服务提供商的停机,从而导致整个系统出现大范围的连锁反应。作为Cloudflare核心组件之一,Workers KV服务为众多产品提供关键的数据存储和读取功能,涵盖身份验证、配置管理和资源分发等重要功能。一旦其底层存储服务发生障碍,便会引发多个业务模块无法正常运行。
事件影响的服务范围涵盖了Cloudflare的身份访问管理(Access)系统,该系统用于管理用户身份验证和策略,保障应用和服务的安全运行。由于Workers KV的中断,Access系统无法完成身份验证请求,导致所有基于身份的登录均告失败,严重影响了包括自托管应用和SaaS平台在内的众多用户的正常访问。此外,Gateway组件受到了身份相关规则失效和身份信息获取失败的冲击,导致部分DNS查询失败,认证加密的DoH请求受阻,而代理和流量管理功能也出现中断。WARP客户端作为Cloudflare的零信任网络访问工具,因依赖Access和Workers KV的数据接口,新设备注册、新用户登录以及现有用户通过Gateway代理的流量均受不同程度的阻碍。部分紧急断开功能同样失效,直接影响用户的使用体验。Cloudflare用户控制面板的登录及使用能力也因Access、Turnstile、Workers KV等组件的失效陷入瘫痪。
无论是传统账号密码登录、Google OIDC登录还是单点登录方式均受到影响,造成用户无法管理账户及配置,给企业日常运营带来不小挑战。作为防止恶意自动化流量的核心服务,Challenges和Turnstile平台也受到严重影响,调用接口失败率飙升。尽管有效的令牌验证在此期间存在漏洞风险,但Cloudflare快速启用应急关闭开关,保证了大部分真实用户和机器人挑战的安全执行。除此之外,Browser Isolation、Images和Stream等内容提供及视频流服务出现失常,上传失败率大幅上升,视频播放错误频发,实时通信的TURN和SFU服务流量大幅缩水,也导致最终用户的交互体验下降。Workers AI、AutoRAG以及基于Durable Objects和D1后端存储的服务同样未能逃过此次风暴,推理请求失败率接近100%,自动文档处理和索引服务停摆。即便是队列和事件通知系统也因依赖Workers KV底层机制而中断,消息的推送与消费出现严重延迟。
Cloudflare的CDN系统虽保持运行,但因高负载和流量转发异常导致部分地区例如圣保罗、费城、亚特兰大和罗利节点出现HTTP错误及响应延迟,影响了网站访问速度和稳定性。事件发生后,Cloudflare多个团队迅速响应,汇聚资源分析故障,确认起因指向基于第三方云提供商的中心存储节点故障,进而扩大至其支撑的Workers KV服务整体不可用。故障检测到升级为P0级别,表明事态紧急。为避免进一步损害,技术团队从18:43 UTC开始尝试迁移关键依赖数据存储,解除对失效存储节点的依赖。与此同时,Zero Trust Gateway启动了服务降级策略,主动放弃涉及身份及设备状态的部分规则,减轻对Workers KV的压力。随着第三方服务逐步恢复,Cloudflare逐渐恢复对Workers KV的调用,所有依赖服务开始回归正常,事件于20:28 UTC结束,服务水平指标重回事件前水平。
事件后,Cloudflare明确表达了深刻歉意,并承认此次事件暴露了在架构设计和供应链管理上的不足。公司承诺加速Workers KV底层架构的改造,消除单点故障与对外部存储服务的依赖,并承担起对所依赖第三方服务的责任。技术改进方面,公司将推动多重冗余策略的落地,提升存储集群的弹性和自动故障转移能力,以防止类似事件再次发生。与此同时,各受影响产品线将设计更为健壮的容错机制,保证在关键依赖服务失效时,能够采取适当限流、降级或本地缓存等手段继续提供基础功能,最大限度减小用户体验影响。Cloudflare的自动化流量管理和缓存恢复工具也将持续优化,实现对突发异常流量的更精细控制与快速响应。此次事件反映了全球互联网服务对于核心存储系统依赖性的脆弱性,提醒厂商必须重视系统设计中的多样性和去中心化,同时加强合作伙伴的风险管理。
对广大用户而言,亦需对云服务中可能的单点故障有一定心理预期,并建立合理的应急计划。综上,2025年6月12日Cloudflare的这次大规模服务中断,虽然暂时扰乱了多项关键互联网服务,但从响应速度、解决方案部署和后续改进规划来看,Cloudflare展现了强有力的技术能力和应对决心。通过持续改进基础设施弹性和生态体系的稳定性,未来将更好地保障全球数字经济的安全与稳定运行。