人工智能技术的飞速进步正引领计算领域进入一个全新的时代,尤其是生成式AI模型的不断壮大,对计算能力和基础设施提出了史无前例的需求。OpenAI硬件主管Richard Ho在2025年于圣克拉拉举办的AI基础设施峰会上阐述了构建全球规模计算的核心原则,强调了全球范围内的计算资源、网络互联、存储与控制系统如何实现有机融合,支持未来AI的可持续发展。 生成式AI的普及必然依赖全球级别的计算基础设施,其规模和复杂度远超过1990年代互联网热潮以及2010年代大数据浪潮。Ho指出,随着模型参数的指数级增长,计算需求呈爆炸式增长,这不仅要求硬件性能的持续提升,更需要重新设计系统架构,破解存储、计算与互联三者之间的瓶颈。 目前,OpenAI正在推动"Stargate"项目,开发自研的加速器,以打破现有以Nvidia GPU为代表的AI计算设备的垄断。这些自家芯片将针对多芯片模块(XPU chiplets)展开优化,通过跨插槽、跨机架的高速互联,实现算力的无缝整合。
Ho强调,现有的摩尔定律已经无法满足这种超大规模算力的需求,下一代计算芯片和系统必须在芯片集成、内存带宽及通信延迟等多个层面取得突破。 网络互联被视为全球规模计算的关键枢纽。生成式AI模型的推理和训练过程需要大规模的低延迟、高带宽数据传输。Ho特意指出,未来AI系统将支持"智能体(agent)"之间长时间、持续的交互,这对延迟和带宽提出更苛刻的要求。智能体不仅仅是被动响应用户指令,而是在后台主动协同作业,处理复杂且长时间的任务,这意味着系统必须具备支持有状态计算和实时线程的能力。 未来AI基础设施的网络系统将不仅限于传统铜缆互联,光互联技术将发挥重要作用,以克服传统介质在带宽和距离上的限制。
然而,光互联可靠性的不足以及测试基建的缺乏,构成了巨大的挑战。Ho呼吁加强光互联技术的研发与验证,确保大规模AI集群的网络稳定性。 在存储方面,随着模型规模迈向万亿级参数,内存容量和带宽成为瓶颈。高带宽内存(HBM)虽然技术持续升级,但市场供应依然紧张。Ho提到采用CXL内存池的理念,通过共享、动态分配内存资源,来缓解瓶颈。此外,结合2.5D和3D封装技术,将芯片、存储和光模块紧密整合,实现更高效、更密集的硬件架构。
AI芯片设计正走向异构融合。结合CPU、GPU、NPU等多种处理单元,以支持不同类型的计算任务。Ho认为,未来的系统架构要做到资源的弹性调度与负载均衡,以提升推理效率和降低能耗。同时,随着机架功率需求飙升至数十万甚至百万瓦级,液冷和沉浸式冷却技术将成为数据中心的标配,以应对热设计功耗带来的挑战。 除了技术难题,供应链问题亦不可忽视。HBM内存短缺、EUV光刻设备分布不均等因素,造成制造环节的瓶颈。
Ho强调,需要产业链上下游密切合作,推动多源供给,确保关键零部件的稳定供应,保障全球计算基础设施的可持续发展。 安全性和对齐原则是OpenAI全球规模计算设计的另一重要主题。Ho指出,当前安全主要由软件层面控制,假设硬件是可信的,但生成式AI模型极具"狡猾"特性,可能会规避软件安全措施。因此,他提出必须在硬件层面集成实时"杀死开关"、异常行为监测和可信执行环境,以保证AI系统运行的安全性和可控性。 这种硬件根植型的安全设计不仅提升了防护的可信度,也为未来AI模型的可靠部署奠定坚实基础。这正呼应了AI系统在实际场景中自治执行任务时必须具备的高度安全和稳定要求。
Ho还提到性能基准的缺失,尤其是针对智能体感知的AI硬件和架构,目前缺乏有效的评测标准。未来要建立涵盖延迟尾部性能、能效及可观测性等多维度的综合指标,推动硬件设计与软件算法的深度融合与优化。 总的来说,OpenAI对全球规模计算的愿景明确指出,未来的AI基础设施将是一个庞大而复杂的生态系统。它融合了创新芯片技术、先进互联方案、灵活存储架构及安全可信的硬件平台,并通过跨行业合作实现供应链的稳固保障。技术挑战和商业挑战并存,但正是这些挑战驱使着整个人工智能产业进入一个更加成熟和规模化的阶段。 在未来五至十年,OpenAI将继续发挥其在AI模型设计和基础设施研发上的领先优势,力求打造具备更高算力、更低延迟、更强安全性的全球计算网络,助力生成式AI实现真正的全球普及,推动人工智能向前迈进一个新台阶。
此次峰会Richard Ho的演讲不仅揭示了OpenAI的技术路线图,也呼吁整个行业正视并解决计算能力、网络架构和数据安全等关键瓶颈。随着更多领先企业和研究机构加入全球规模计算建设,这场围绕AI基础设施的大规模革新,必将深刻影响数字经济和社会的未来发展格局。 。