2025年6月12日,知名开源后端即服务平台Supabase遭遇了一场严重的服务中断事件。这次事件主要由其上游云服务提供商的基础设施故障引发,导致Supabase的API网关出现大面积宕机,影响了全球范围内数以万计用户的HTTP和WebSocket连接。尽管Supabase的直接Postgres数据库和连接池访问未受影响,但几乎所有依赖API网关的服务如认证、存储、边缘函数、数据API以及控制台仪表盘等均出现不同程度的功能降级或不可用。本文将对这次影响深远的故障事件进行深入剖析,回顾事件始末,探讨根本原因,评估影响范围,同时披露Supabase未来避免类似事件发生的规划与措施。 事件发生时段为UTC时间18点05分至20点30分,历时超过两个半小时,是Supabase历史上影响范围最大的一次服务中断。此次事件首先从部分HTTP API和WebSocket连接的性能下降以及超时开始显现。
Supabase内部监控在18点17分触发警报,确认了API和仪表盘的访问能力严重受损。18点28分官方正式宣布进入事故状态,尽管当时团队尝试登录云提供商的管理控制台以调查具体故障原因,但访问受限,随后紧急联系云服务商展开问题沟通。18点36分以后,管理API出现全球范围超时,18点45分至19点05分间API请求激增,对内部中间件数据库造成压力,团队迅速采取措施稳定系统。 面对上游服务不稳定,Supabase技术团队在19点05分到19点13分之间尝试了绕过代理的临时应急手段,但只能缓解部分压力。随着故障逐步向外扩散,20点09分云服务提供商的系统开始逐步恢复,Supabase在20点20分重试了受影响的操作,至20点30分整体平台恢复稳定。事后,Supabase于21点18分将事故状态调整为“监控”,并在22点05分全面确认服务恢复正常,正式关闭此次事件。
深入追溯故障根源,Supabase指出问题起始于其上游合作伙伴——Cloudflare的基础设施。Cloudflare内部Workers KV存储系统出现了关键故障,导致全网服务级联影响。KV存储作为分布式键值数据存储服务,承担了缓存、路由和代理等重要职责。一旦该系统失效,Supabase的API网关无法正常响应用户请求,进而导致服务链条断裂。此外,API网关作为用户流量的汇聚点,其故障直接阻断HTTP和WebSocket流量,使得各种依赖接口一时陷于瘫痪。 此次事件的影响面极为广泛,涵盖了Supabase的多项核心服务。
除了数据API和实时通信功能受阻之外,控制台Dashboard部分功能也受到限制,管理API访问受挫,相关的日志和观测服务Logflare亦出现性能下降,给事件诊断带来了难度。用户从世界各地纷纷报告访问延迟、连接中断与数据同步异常,给开发项目和业务运营带来极大困扰。虽然直接数据库链接功能尚可用,确保关键数据不受损,但整体服务的体验降级,突显出Supabase对上游依赖的脆弱性。 事故发生后,Supabase迅速启动多项应急响应措施。首先,团队第一时间建立与Cloudflare的沟通渠道,联合排查问题。内部则协调各部门全力保障关键平台组件的稳定,并通过调整API请求策略、限制流量峰值,缓解对中间件数据库的冲击。
针对异常请求,技术团队启动了故障隔离和恢复操作,最大程度确保平台尽快回归正常。同时暂停了部分非核心业务进程如账单导出,降低系统负载待整体环境稳定后再恢复。事件通报通过官方状态页持续更新,向用户透明披露最新进展及预计恢复时间,维护了品牌信誉与客户信任。 总结此次事件经验,Supabase坦言,虽然根本故障源自Cloudflare的基础设施,但自身架构中对单点依赖的不足加剧了影响范围。未来,Supabase计划针对API网关进行全面重构,致力于实现更高隔离度和容错能力,将关键服务逐步迁移出对单一提供商依赖的困境。技术路线包括设计多级缓存体系、引入弹性负载均衡及多供应商策略,确保某一环节故障不会波及全部服务。
观测与日志系统方面,Supabase将升级日志收集和分析框架,提高对上游异常的早期感知能力,保障在故障发生初期即可快速定位与响应。此外,事件沟通流程也将优化,扩展全球时区覆盖的危机通报机制,实现事件通报更加及时、准确和细致,让用户在异常期间体验到更充分的信息透明度。 这次事件亦促使Supabase加强与上游云服务供应商的协同合作。通过强化沟通渠道,争取提前获得潜在高影响变更及问题的预警,从源头上减少突发性大规模故障。同时,设备和系统的容错设计方面,团队将继续完善断路器策略和流量告警机制,特别是针对管理API和中间件等关键环节,提高整体平台的抗压能力和恢复速度。 对于用户而言,这次事故无需进行任何敏感操作,目前所有服务已全部恢复正常。
Supabase对用户的耐心表示深切感谢,承诺将继续致力于打造一个更加稳定、可扩展和透明的开发平台环境。平台的愿景依然是让开发者专注于创新,背后用坚实的技术保障支撑每一次请求和数据传输的顺畅流转。 通过这次事件,Supabase不仅彰显了快速响应和危机处理能力,更清晰地发现了自我成长的方向。随着互联网基础设施架构日益复杂,平台自身的稳健性要求不断提高,单一上游依赖的风险管理已成为设计开发中的核心课题。未来,Supabase将积极践行多层防护与弹性架构理念,以保障全球用户在任何环境下都能获得卓越的服务体验。 总的来说,2025年6月12日的API网关故障是一次深刻的警示,也是一场宝贵的实践机会。
Supabase在检视自身架构极限和协作模式后,已经开始布局更为完善的系统升级路径。相信不久的将来,Supabase会以更加坚实的技术壁垒和敏捷的运营管理,迎接云端时代的无限挑战与繁荣。