2025年7月14日,Cloudflare的公共DNS解析服务1.1.1.1爆发了一场全球范围的重大故障,持续时间达62分钟,影响了全球数以百万计的用户。这次事故不仅导致用户无法正常访问互联网服务,还引发了业界对公共DNS服务稳定性与网络安全防护的高度关注。作为一项免费且备受信赖的DNS解析服务,1.1.1.1的中断带来了广泛影响和深远的反思。 Cloudflare自2018年推出1.1.1.1公共DNS解析服务以来,凭借其高速响应和隐私保护,迅速成为全球最受欢迎的DNS解析选择之一。作为互联网的关键基础设施之一,Cloudflare采用了anycast路由技术,通过将同一IP地址公告于全球多个数据中心,来提升访问速度和容错能力。然而,正是anycast技术对路由控制的高度依赖,使得1.1.1.1的可用性极易受网络公告配置错误的影响。
这次故障的根源在于Cloudflare内部一项服务拓扑结构的错误配置。具体而言,在2025年6月6日,Cloudflare为其数据本地化套件(Data Localization Suite,简称DLS)服务做了一次配置修改。这项配置原本针对一个尚未投入生产的新服务,但误将1.1.1.1解析服务的IP前缀包含其内,造成潜在风险埋藏于生产环境中。这一配置错误当时并未造成即时影响,因而未触发任何预警。 到了7月14日晚,Cloudflare对同一套DLS非生产服务拓扑结构进行新一轮变更,尝试添加一个内部测试的数据中心位置。由于之前隐藏的配置缺陷,这次调整触发了全局网络配置的刷新,1.1.1.1的IP前缀被错误地撤回,从而导致全球路由表中这些地址的公告瞬间丢失。
1.1.1.1服务网络中断,DNS查询请求无法到达Cloudflare的数据中心,全球大部分用户的网络访问瞬间受到严重影响。 此次故障时间轴清晰:从7月14日21点52分(UTC)开始,1.1.1.1解析流量急剧下降,峰值拥堵和查询失败问题随之出现。在7月14日22点01分,系统内部服务健康监测报警触发,Cloudflare正式声明事故开始。22点20分左右,工程团队回滚配置至先前稳定版本,同时在测试环境验证后加快了修复部署。约22点54分,全球路由公告逐步恢复,1.1.1.1解析服务恢复正常,事故结束。整个事件历时62分钟,尽管时间较短,但影响之大足以引起广泛关注。
这次事故的影响面极其广泛,涉及IP前缀包括1.1.1.0/24、1.0.0.0/24、2606:4700:4700::/48等多个IPv4和IPv6地址块。作为许多终端设备默认的DNS解析服务器,数以亿计用户在事件期间面临无法解析域名的问题。用户不仅网页无法打开,许多依赖域名服务的应用程序、云服务、物联网设备等也纷纷瘫痪,显示出DNS服务作为互联网基础的关键地位。 事件中,UDP和TCP协议的DNS流量受影响最为明显,DNS-over-TLS流量也出现显著下降。但DNS-over-HTTPS(DoH)流量相对稳定,主要是因为DoH服务使用不同的域名和IP地址,较少依赖1.1.1.1的直接IP访问。部分采用其他IP段的DNS请求也未受波及,这为用户提供了部分缓解渠道。
Cloudflare博客指出,此次事故同时暴露出与路由公告关联的一起BGP前缀劫持事件,但经过确认,劫持事件并非故障根因,而是因路由撤回使得劫持现象意外显现。 此次意外暴露了Cloudflare尚在过渡期内的服务拓扑管理系统的弊端。Legacy系统中,每个IP地址前缀都被硬编码绑定到数据中心位置列表,维护复杂且极易出错。新一代系统尝试采用更灵活的描述方式,支持渐进式部署和健康监测,从而减少配置失误的风险。不幸的是,由于两套系统的并行存在,同步机制缺陷导致了此次灾难性错误。这凸显出传统网络运营手动配置的风险,以及推动自动化、可编程网络变得更加迫切。
对于快速恢复服务,Cloudflare团队采取了加速变更推送和手动测试验证的应急措施。退回之前的拓扑配置使BGP路由公告重新发布,用户DNS查询开始恢复。尽管如此,部分边缘服务器因自动移除IP绑定配置,需额外时间通过变更管理系统重新配置,延长了恢复时间。Cloudflare强调,严格的渐进式更新策略及安全保障流程虽然可能延长修复响应时间,但有效防止了更加严重的连锁故障。 此次事故成为Cloudflare改进网络管理体系的催化剂。他们宣布将加速弃用遗留系统,全面实施新型服务拓扑描述和渐进部署策略,确保未来能在问题发生初期快速检测并回滚变更。
同时加强文档完善、覆盖测试以及自动化健康监测程序,以防止类似错误再次出现。通过技术革新与运营规范提升,Cloudflare致力于为全球用户提供更为稳定、可靠的DNS及网络服务。 除了技术层面,1.1.1.1故障也提醒企业和个人用户务必理解关键互联网基础设施的潜在风险,增强自身网络弹性。例如合理配置备用DNS服务、采用多路径解析方案、关注服务提供商公告等,都能有效降低单点故障影响。此外,云服务和内容分发网络的高可靠性设计日益重要,相关行业应持续投入研发与安全防护。 总体来看,2025年7月14日的Cloudflare 1.1.1.1服务中断事件,是一次典型的因配置管理失误导致的互联网关键基础设施故障。
它暴露了网络配置复杂性及遗留系统风险,同时也展现了Cloudflare团队应对危机的专业能力和透明沟通态度。此次事件促使相关运营机制向自动化、渐进式部署和高效监测转型,是现代网络系统稳健性提升的重要契机。随着云计算与网络技术不断发展,这样的挑战也将持续推动行业进步与创新,保障全球互联网的健康运行。