2025年7月18日,对于依赖Google云平台(GCP)和Google Workspace(GWS)服务的用户而言是一个极具挑战的日子。当天上午,Google云服务的us-east1区域,即美国东部南卡罗来纳州,遭遇了长达近两小时的服务中断,广泛波及多项关键云产品与服务,该事件成为当时业内关注的焦点。众多云计算用户和企业的日常运营受到了不同程度的干扰,此次事件也深刻揭示了现代云基础设施运维所面临的风险与挑战。事故的根本原因是一场预定且计划中的硬件维护过程中发生的程序性失误。在维护过程中,一台网络控制平面的核心交换机被错误地断开连接,误断的是主控制单元而非计划拆除的冗余单元。尽管网络设计中有“失效开放”(fail open)的机制,允许网络控制平面在部分失效时维持基本运行,但随后网络拓扑的变更在控制平面数据尚未更新的状况下,引发了网络包丢失、流量拥堵和整体延迟上升。
此次网络故障的开始时间可追溯至7点42分(美国太平洋时间),影响范围主要锁定在us-east1区域内,尤其是us-east1-b可用区遭受重创。服务受到影响的包括但不限于AlloyDB for PostgreSQL、Apigee、Cloud Armor、Cloud Build、Cloud Monitoring、Cloud Run、Google BigQuery、Google Cloud Storage、Google Kubernetes Engine等多个核心云产品,几乎涵盖了Google云平台的主要服务线。同时,Google Workspace中涉及Gmail、Google Meet、Google Drive、Google Chat、Google Calendar等多个协作通信产品的用户也感受到了延迟和服务不稳定,特别是位于美国东南部的用户受到较大影响。谷歌工程团队在监控系统最初检测到异常时,迅速展开调查和响应。7点39分左右确认了根本原因,并动员现场技术人员进行恢复连接的操作。即便如此,由于网络仍处于“失效开放”状态,后续出现的拓扑变更导致服务质量下降,工程师们通过调整流量路径,将数据流转移出受影响的网络结构,逐步缓解了服务冲击。
整个事件于9点47分彻底解决,控制平面恢复正常,所有服务恢复稳定运行。事件持续时间接近两小时,对运行在us-east1区域的客户产生了明显的影响。此次故障事件对Google而言无疑是一次重要教训。谷歌在事后发布的报告中坦诚此次事故反映了运维过程中人机操作和硬件管理的风险,承诺在未来将增强硬件维护的安全控制措施,禁止非关键流程的非安全操作,并计划在2025年第三季度完成相关流程的改造升级。为了避免类似“控制平面分区导致的双重故障”问题,谷歌还计划在2025年第四季度前设计并实施更完善的网络冗余和自动故障保护机制,确保网络拓扑在各种异常状况下能够保持实时有效、减少故障蔓延。从客户角度看,这次事件体现了云服务架构高可用设计的双刃剑特性。
虽然现有设计允许单点硬件失败时维持“失效开放”,避免大规模服务全面中断,但波及网络拓扑的额外因素仍会带来不可忽视的连锁反应和性能问题。随着云计算成为企业核心基础设施,如何平衡维护操作对稳定性的影响、提升自动化容灾能力,成为业界亟需解决的问题。此次事件也给广大云用户敲响了警钟,提醒企业架构和运维团队应评估因区域单点故障带来的潜在风险,合理规划跨区域容灾策略,积极利用多可用区和多区域部署以提升业务连续性。另一方面,Google在事发后的透明沟通和快速响应也体现了大型云服务提供商面对突发事件的责任担当。通过持续分享调查结果、发布详细故障分析报告,以及后续预防措施的明确,增加了客户对平台的信任度。在未来的云服务生态中,云厂商与客户的紧密协作和信息公开将是提升服务质量和保障业务稳定性的关键。
总体来看,2025年7月18日的Google云故障事件揭示了大规模云平台运维的复杂性和不可预知性。虽然没有造成客户数据丢失,但对关键业务流程的影响显著,促使云服务供应商持续完善硬件和网络维护流程,提升故障自动化恢复能力。对于使用Google云服务的企业而言,及时关注服务状态公告,加强灾备体系建设,成为面对突发技术事件的重要保障。未来,随着云基础设施更新迭代以及智能运维技术的广泛应用,类似事件的发生概率预计将大幅下降,但任何公共云平台的运营风险应被纳入全面考量范畴,确保企业数字化转型的稳定和安全。