2025年6月10日,全球领先的客户关系管理软件供应商Salesforce遭遇了一次大规模的认证服务故障。这次事件影响范围广泛,涵盖了包括Commerce Cloud、Core Services、Experience Cloud、Heroku、Marketing Cloud Engagement、Marketing Cloud Account Engagement、Marketing Cloud Intelligence、MuleSoft、Revenue Cloud、Salesforce+站点、Salesforce Chat体验、Service Cloud及Tableau Cloud等多个核心云服务。众多用户因此遭遇多因素认证(MFA)失败,导致无法正常登录和使用相关服务。这篇文章将对此次认证故障的具体情况进行详细剖析,回顾事件进展,分析核心原因,探讨对客户业务的冲击,并提供切实可行的应对建议,帮助企业提高风险管控和故障响应能力。 事件第一时间爆发于6月10日凌晨6点17分(UTC时间),Salesforce技术团队迅速意识到认证服务出现大范围异常。变故主要由Heroku平台的自动化配置更新引发,该更新无意中扰乱了网络连接,导致多云环境内多个服务出现连接和验证失败的问题。
由于Heroku在Salesforce生态系统中充当关键桥梁,自动化更改引发的连锁效应极大地加剧了事件影响范围和严重性。 服务中断表现为多因素认证流程未能顺利完成,尤其影响了依赖Salesforce Authenticator或基于时间的一次性密码(TOTP)机制的用户登录。这直接导致大量企业用户无法访问产品后台或相关业务工具。部分使用Omni-Channel Inventory(OCI)和Salesforce Order Management(SOM)的Commerce Cloud客户反映订单处理流程中断,甚至出现订单无法正常提交和处理的情况。这既影响客户的日常运营,也带来财务结算和客户服务等方面的风险。 除了认证环节,相关云服务还遭遇API调用失败、消息中断和用户体验下降。
Salesforce Chat体验中出现连接中断,第三方消息服务(如WhatsApp和SMS)无法正常运转。Marketing Cloud Engagement客户遇到登录和营销活动编辑功能障碍,Tableau Cloud用户面对间歇性的登录失败。Salesforce+站点的事件注册及内容浏览功能也中断,引发用户投诉。所有这些问题从根本上影响了企业的数字化运作流畅性和客户服务质量。 技术团队对事件响应迅速而有序。从故障初期的频繁更新中可以看出,团队首先评估影响范围,随后逐步部署针对性修复措施。
具体做法包括基于 Heroku 平台的自动重启工作流启动,对受影响的应用执行逐步的Dyno手动停止和启动等操作,确保干预过程中避免过度服务中断。此外,技术团队与第三方供应商密切协作,跟踪网络配置变更和自动化更新,力求排查导致网络连接异常的根源。 此次事故排查表明,故障的直接触发系因Heroku自动化网络配置更新破坏了部分服务实例的连接性。该失误导致广泛的认证服务请求无法验证通过,进而形成业务阻塞。为规避类似情况,Salesforce承诺制定更严格的自动更改发布策略,实行多层次测试和验证机制,有效防范闪断风险。针对重启策略也将优化,避免过度依赖自动化流程,尤其是在关键服务及多云环境下。
从客户角度来看,认证失败带来的挑战不仅体现在即时登录障碍上,更延伸至订单处理差错、用户数据无法访问、营销活动停摆、客户互动体验断裂等层面。许多企业需迅速调整应急预案,采用备用认证方式,例如使用TOTP作为替代登录手段。同时,加强与Salesforce支持团队沟通,及时获取最新技术指导和修复进展通知。 企业应将此次事件作为警示,重新审视自身的数字供应链和身份认证依赖。多因素认证虽提升安全等级,但面临服务中断时对业务影响巨大。推荐跨云平台构建多样化冗余方案,保障关键应用在彼此独立的服务链条中能够平稳切换。
提升内部应急响应能力,确保业务连续性方案中明确应对认证失败的走查和替代措施。 此外,企业应积极关注官方发布的知识库和事件动态更新。例如Salesforce和Heroku均提供了详细的故障排查文章和手动恢复指导链接,用户可根据具体云服务使用情况采取对应操作。定期升级客户端认证软件和监控系统,及时识别异常登录行为和错误反馈,有助于加快问题发现和响应速度。 未来,为了避免类似因素影响面广的多云认证故障,生态系统中各方需加强协作,推动认证流程的去中心化与异地备份。引进更智能的故障检测和自动恢复技术,结合人工监控形成复合保障体系。
同时,要加强配置变更管理,实施严格的变更审批和自动化测试,确保每一次更新都经过充分验证。 此次故障事件再次凸显了数字化服务供应链的复杂性及脆弱性。随着企业对云服务依赖愈加深化,任何单点故障均可能衍生严重的连锁反应。只有通过持续改进安全认证机制、网络配置管理和应急预案,才能最大程度降低突发事件带来的业务中断风险。总的来说,Salesforce事件在提前反映云服务多因素认证的痛点同时,也为业界提供了宝贵的经验教训。 综上所述,2025年6月10日的Salesforce多云认证故障事件带来了显著影响,涉及众多关键云产品和终端用户。
事件根因是一项Heroku平台的自动化网络配置更改引发的连锁服务中断。技术团队迅速开展多阶段排查和服务恢复,期间积极与客户沟通,提供临时替代方案和手动干预指导。用户和企业管理者需意识到多因素认证的安全优势与潜在风险,积极完善自身系统的容灾能力和应急机制。未来的重点应着眼于增强跨平台协同,完善配置变更控制流程,以及引入更智能的自动检测和自动修复工具,为平稳的云服务运营构筑坚实保障。