Neon作为一家引领Serverless Postgres数据库创新的公司,自成立以来一直致力于为企业和开发者提供高效、可扩展的数据库服务。2025年五月和六月,Neon经历了一段平台稳定性的挑战期,源于用户使用量的爆炸性增长,特别是来自Agentic AI平台的强劲推动。本文将详细回顾这段时间Neon所面对的困难、解决方案以及未来规划,为正在考虑采用Neon数据库或关注其技术进展的读者提供全面的视角。 今年五月,Neon迎来了前所未有的用户活动激增,数据库新建速率增幅超过了五倍,尤其是在美国地区的活跃项目数量暴涨。更为惊人的是,数据库分支(branch)的创建速度甚至提升了50倍以上。数据库分支是Neon技术的重要优势,因其基于Copy-on-Write技术实现即刻数据复制,极大地提升了开发和调试效率。
然而,这一突发的激增对Neon底层架构和运营造成了巨大压力。 这一异常增长首先暴露出Neon在水平扩展能力上的短板。Neon当前采用了基于Kubernetes的集群架构,每个活跃数据库对应一个运行中的Pod。而这一设计在超过10000个并发活跃数据库时,性能与稳定性开始显现瓶颈。具体问题包括Amazon EKS集群中etcd存储内存达上限、Pod启动时间延长,以及网络配置限制数据库数量上限,让整体服务面临隐患。虽然Neon团队早在2025年初就预测年底将达到此种瓶颈,但实际激增速度远高出预期。
为解决该瓶颈,Neon迅速推进了名为“Cells”的新架构项目。Cells实现了多部署实例的区域水平扩展,相当于将单一区域内的巨大技术负荷拆分成为多个可独立运作的小单元,极大增强了弹性和负载均衡能力。该项目涵盖了Terraform自动化配置的全面改造,以及跨地域协调机制的优化。通过Cells架构,新创项目默认分配至具备更充裕资源的新部署Cell,减缓了旧有集群组件的压力,并提供更快的启动响应时间。 与此同时,Neon团队针对短期内的限制,实施了多项配置和参数调整。包括优化网络通讯路径,减少Kubernetes API调用频率,搭建专用控制平面数据库,以及智能负载分摊手段。
这些操作虽提升了短期的稳定性,却也带来更高的操作风险,因为工程师不得不维持一个高度复杂和紧张的系统状态,增加了潜在故障概率。 进入六月,核心挑战由数据库分支元数据的爆炸式增加引发。Neon的控制平面数据库主要负责存储元数据信息,包括数据库实例管理和操作记录。虽然数据库分支本身采用高效的无数据复制设计,但海量的分支创建数量导致控制平面数据库的负载激增。特别是在账单计算和使用量统计场景中,复杂查询策略迅速变得低效,部分关键查询从几十毫秒暴增至数十秒,严重影响了整体服务稳定性。 这种场景进一步暴露了Postgres数据库在极端负载下典型的性能问题,如查询计划漂移(query plan drift)和缓冲区真空(vacuum)不足等。
Neon产品团队总结出,当前测试套件侧重于常规五倍负载场景,未能完全模拟某些业务场景中数据库分支激增至五十倍的极端状态。因此现实生产环境与测试环境的差异成为了稳定性风险的隐患。 为了应对这一挑战,Neon立刻强化了对分支数目的限制,覆盖了单项目和单客户的多个维度,避免分支数量失控。同时更新了测试规范,引入了高分支数创建的模拟负载,提高了对极端场景的预警能力。产品团队还重构了部分核心查询逻辑,使其在执行计划变更时更加安全可靠。此外,Neon计划将账单和使用统计的计算逻辑从控制平面数据库拆分出来,迁移至专用的分析型数据存储层,避免核心控制数据库因额外负载而瘫痪。
展望未来,为了进一步提升系统的弹性和清晰性,Neon已经规划了控制平面服务的职责拆分方案。现阶段控制平面承担了大量职责,包括计算资源的调配、存储资源的管理及业务数据的服务,形成了庞杂且关键的单点。Neon计划将数据库启动、挂起管理逻辑剥离为一个更简单、更专注于热路径操作的独立服务。这个细粒度的服务将专注于快速响应数据库唤醒及暂停请求,避免承担计费或资源配给等负载较大的任务,从而提高整体系统的响应速度及稳定性。该计划预计将在2025年第三季度开始推出,第四季度完成全貌部署。 这两个月的波动对用户体验造成了显著影响。
尤其是两类用户群体首当其冲:一类是依赖规模到零(scale-to-zero)机制闲置数据库,在访问时需要冷启动;另一类是通过编程方式高频构建数据库的场景,如为每个用户创建单独数据库的Agentic AI平台。Neon披露在五月份大约3.5%的活跃数据库未能达到99.95%的正常运行时间,六月略有缓解,剩余约0.7%的活动数据库存在相似问题。 衡量这类大规模且分散的数据基础设施事件影响极其复杂,尤其在Neon平台任何用户均可随意创建数据库且可长期闲置的特性下,整体活跃数据库数量庞大,很多并未持续使用。相比传统以总数为指标,Neon选择以“活跃数据库百分比”为更合理的衡量标准,更真实反映实际服务可用性。 从此次事件中,Neon团队汲取了宝贵教训。面对未来不断创新的用例和激增的工作负载,团队深知要保持技术领先和服务稳定,需要持续强化扩展架构、升级监控预警体系以及细化率限制措施。
Neon承诺将继续保持开放沟通,及时透明地共享产品优化进展和故障排查过程,赢回客户的信任和支持。 总结来看,五月和六月Neon的平台波动虽带来一定困扰,却也是其从快速增长走向成熟的重要转折点。通过Cells拆分架构、控制平面优化及服务拆分设计,Neon正构筑一座更具弹性、更易维护、能够支持未来指数级增长的数据库服务大厦。对于追求Serverless Postgres高效创新体验的开发者和企业来说,了解这些变化和底层技术进步,将有助于更好地选择和利用Neon平台,提升产品迭代速度与用户满意度。 未来,Neon还将持续聚焦AI集成、自动弹性扩容和多地域多租户隔离等前沿能力,推动数据库服务进入全新阶段。面对前沿技术和应用爆发式增长,Neon凭借其不断创新的工程实力和强烈用户责任感,注定将在Serverless数据库领域书写更多成功故事。
无论是初创企业还是大型平台用户,Neon提供的现代Postgres工作流和灾难恢复能力都将为数字化转型带来坚实有力的支持。令人期待的是,Neon的稳定性和性能优化旅程也正在为全球数据库服务行业树立新标杆。