随着人工智能尤其是数学自动推理领域的迅速发展,构建能够以规模化方式高效处理复杂数学证明系统成为业界一大挑战。Harmonic作为全球数学超智能领域的重要推动者,通过其核心产品Aristotle,成功实现了在2025年国际数学奥林匹克(IMO)上金牌级别的突破表现,并打造了世界领先的Lean定理证明自动化体系。其背后的关键技术之一,便是被称为"Running Lean at Scale"的大规模Lean执行框架和配套的自动化强化学习系统。这套系统不仅令大规模的Lean定理证明成为可能,同时以卓越的性能和可扩展性推动了AI数学超智能的前沿探索。Lean作为一种交互式定理证明语言,其设计哲学在于将数学逻辑构造以可验证和可操作的策略分解为一系列"策略战术"操作。每条策略代表数学证明中的一步推理,整体证明则构成了策略与状态的树状演绎结构。
合理的执行和调度这些策略是自动化数学推理能否成功的关键。面对如此复杂的演绎树,Harmonic团队研发的Lean执行框架 - - REPL服务成为核心。REPL服务以语义无状态、易于横向扩展著称,能够处理极大量的Lean证明请求。其设计充分应对了Lean扩展的资源瓶颈,尤其是CPU资源的巨大需求,突破了一般GPU硬件的约束。核心思路在于将客户请求按照策略战术顺序转换为Lean代码,并通过REPL交互式环境运行生成一棵证明状态树,利用导出与导入状态序列化对分布式计算节点间任务并行执行进行高效分发。早期版本的REPL服务虽实现了基本并发功能,但因采用本地库实现且连接方式单一,限制了系统的弹性扩展能力,当面对数十万CPU资源调度时显得力不从心。
针对连接稳定性差、节点负载不均、断线重连复杂等问题,Harmonic逐步优化体系结构,经历了多个版本的迭代。第一版基于FastAPI和WebSocket实现,通过 GKE(谷歌Kubernetes引擎)将异步Lean REPL封装为服务,并使用负载均衡器路由客户端请求。虽具备分布式特性,但由于WebSocket连接与后端节点绑定,出现连接"钉死"后负载不均及重连困难。此外连接断开频繁,影响系统稳定性。第二版引入gRPC协议取代WebSocket,利用HTTP/2特性实现基于请求的无状态路由,消除了连接绑定带来的问题。该架构实现了请求的高效复用与跨节点动态调度,但引入了HTTP/2加密强制性要求、流数量限制以及gRPC Python库多进程兼容难题。
第三版,Harmonic团队重新设计了一个定制的轻量级二进制协议及配套路由器。路由器具备全球请求队列与公平调度能力,允许客户端连接不再绑定运行后端节点,任务以请求粒度分配,实现CPU资源利用的最优均衡分配。更巧妙的是后端节点与路由器采用反向连接,即后端主动建立心跳连接使路由器自动感知节点存活状态。该设计简化了健康检查体系,无需额外服务发现和连接管理,极大提升了系统鲁棒性。通过时序监控与队列长度计算,针对不同请求负载动态调整后台节点池规模,将负载泛化于全局,缩短了规模弹性伸缩时间由数小时至十分钟级别。如此设计使Harmonic REPL集群可支持近百万CPU核心的并发计算,且仍保证高可用和95%以上CPU利用率。
Lean证明任务得以高效地被分解、并发执行,推动Aristotle模型完成国际数学奥林匹克中一系列难题,实现历史性的突破。除了基础架构,运行"Running Lean at Scale"的挑战还包括异常处理、任务重试策略以及状态数据传输优化。Harmonic通过压缩状态数据仅占原始大小约8%,实现在各节点间状态转移的轻量化,避免了昂贵的带宽开销。未来还计划将状态数据部分缓存在路由端,探索"松散绑定"调度,提高状态数据命中率,从而减少网络传输和解压时间。另一方面,利用基础设施中闲置的CPU资源,尤其是未被GPU利用的CPU,也将整合进REPL集群,提升整体资源效率并降低云端运营成本。Harmonic坚信自主研发符合自身需求核心组件的理念,即使外部已有诸多成熟方案,也无法满足特定的高性能、复杂交互及海量并行计算需求。
通过深入理解Lean语言本质及证明流程,再从底层协议、集群调度和服务弹性多角度打磨系统,得以创造适应未来数学超智能研究的强大平台。本质上,Running Lean at Scale不仅是一项工程挑战,更是一种对数学推理自动化的系统思维革新。它体现了如何将规范化的数学逻辑过程与大规模异构分布式计算有机结合,为AI数学智能奠定坚实基础。此外,Harmonic正在积极探索Lean证明技术在软件工程及科学计算领域的应用潜力,实现以数学验证驱动的软件开发和研究科学新范式。这些长远规划将使得数学超智能成果惠及更广泛的技术生态。总结来看,Harmonic的规模化Lean执行系统强调了软件系统设计中的核心原则:简单但高效、灵活且健壮。
经验告诉我们,面对极端规模和复杂度,往往合适的自主定制方案更具竞争力,而非对现成方案的一味集成。通过反复迭代和持续优化,Harmonic不仅造就了业界领先的自动定理证明平台,也为全球数学AI社区呈现了宝贵的技术参考模板。未来,随着数学超智能进展加速与应用场景多样化,Running Lean at Scale系统将持续发挥关键作用,不断突破性能天花板,引领AI和数学交叉融合新高度。对于有志于参与这一前沿领域的技术人才而言,这一系统展现了极具挑战性的技术航标和无限发展空间。Harmonic诚邀更多志同道合的研究者和工程师加入,共同打造未来智能世界的数学基石。 。