近年来,随着人工智能(AI)和高性能计算(HPC)的迅速发展,底层互联技术的重要性被提升至新高度。网络互联不仅影响数据传输速率和延迟,更直接关系到整体计算集群的效能和能耗。目前,英伟达的InfiniBand凭借其低延迟、高带宽和强大的生态系统占据了行业主导地位。然而,在经过五年沉寂之后,曾经由英特尔开发的Omni-Path技术如今由Cornelis Networks接手并进行全新升级,再次成为业界关注的焦点。此次,Omni-Path不仅实现了数据传输速率从100Gbps跃升至400Gbps,更计划在不远的将来支持800Gbps,力争在性能和成本上对InfiniBand形成有力竞争。Omni-Path诞生于2015年,当时英特尔旨在打造一套高效、无损的互联方案以满足超级计算机的苛刻需求。
它在众多顶级超级计算平台中得到应用,包括美国洛斯阿拉莫斯国家实验室的Trinity系统和能源部的Cori系统。尽管如此,英特尔在2019年终止了该项目,并在2020年将业务剥离给了Cornelis Networks。尽管技术方面保持活跃,但该生态在过去几年未能保持明显进展,导致许多人误以为Omni-Path已被淘汰。如今Cornelis Networks重整旗鼓,以CN5000系列产品重回市场。CN5000包含了功能完善的400Gbps超级网络接口卡(superNIC)和48端口交换机,提供19.2Tbps的总带宽。这款超级NIC支持单或双400Gbps的端口设计,采用PCIe 5.0接口,展示出15至19瓦的耗电水平,并支持空气和液冷解决方案。
值得关注的是,Omni-Path的设计哲学仍然聚焦于实现极致的低延迟和高消息传递速率,这对于AI模型训练和科学模拟而言至关重要。相比英伟达400Gbps的Quantum-2 InfiniBand网络和ConnectX-7网卡,Cornelis宣称Omni-Path的消息速率最高可达2倍,延迟降低35%,模拟时间缩短30%。虽然这些数据需谨慎参考,但足以体现Cornelis Networks对性能的自信。硬件之外,CN5000 Director交换机作为超大规模网络解决方案应运而生。它集成了18个单元交换设备,合计576个端口,带宽达到令人震撼的230.4Tbps。该设计不仅能够支持庞大规模的AI和HPC集群,还大幅简化了布线复杂度和光学器件需求。
如此庞大的网络基础设施适用于数十万节点的集群,助力超大规模AI训练。高端的互联往往伴随着巨大的功耗和散热挑战,CN5000 Director整体重量超过600磅,且整机满载时功耗约为22千瓦。相比之下,便携与模块化性能固然重要,但解决大规模部署的可扩展性和经济性才是真正关键。正因如此,Cornelis的产品策略更加注重企业级AI和HPC市场的中大型部署,而非单纯追求极致端口密度。与英伟达Quantum-2交换机拥有64个400Gbps端口相比,CN5000的48个端口或许显得端口数较低。但对于企业级客户而言,Omni-Path提供的价格性能比及其超低延迟优势更具吸引力。
英伟达虽然计划推出Quantum-X800,支持高达800Gbps速度及144端口密度,但这也受到PCIe 5.0接口带宽的制约。只有配合PCIe 6.0设备,才能真正突破400Gbps单端口瓶颈。对此,Cornelis已经规划在明年随新一代PCIe 6.0 CPU问世后,推出支持800Gbps的CN6000系列,届时还将实现与以太网的兼容性,进一步拓宽应用场景。谈及网络拓扑,Cornelis的低基数交换机设计意味着构建超大规模网络时需要更多节点。例如,要对象征性的12.8万个GPU集群实现400Gbps连接,估计需部署逾13000台CN5000交换机的三层fat-tree结构,相比之下,英伟达Quantum-2只需约1万台。而与最新以太网技术相比,如Broadcom的Tomahawk 5及即将推出的Tomahawk 6,端口带宽及数量更具优势,构建规模庞大的GPU集群所需交换机数量显著减少。
虽然以太网凭借其巨大生态优势和不断改进的拥塞管理算法赢得广泛部署,Omni-Path在超低延迟和消息传递效率方面仍保持竞争力。Cornelis强调网络的最终目的不仅是连接硬件,更是为应用加速服务。较小更扁平的网络虽然延迟更低,但Omni-Path的低延迟性能允许更多跳数,简化扩展设计。针对数据密集型AI训练,Cornelis声称其互联技术相比以太网RoCE协议能缩短6倍通信时间,为整体集群效能带来极大提升。行业巨头如Broadcom则指出,基于其硅谷解决方案的以太网网络已实现了与InfiniBand和Omni-Path相媲美的GPU利用率。目前全球最大规模的GPU部署几乎全部采用以太网架构,证明了以太网在大规模推广上的有效性和可靠性。
展望未来,Cornelis Networks通过开发支持以太网兼容性的CN6000系列,将Omni-Path的高性能特性与以太网的普适性相结合,打造所谓的“超以太网”生态。该战略不仅强调技术融合,更意图抢占下一代AI和HPC计算市场。然而,Omni-Path生态的复苏依然面临诸多挑战。首先,英伟达已在AI硬件领域构筑强大生态圈,拥有成熟的软件栈和广泛部署案例。其次,以太网仍在不断突破性能极限,持续缩小与专用高速互联的差距,且因其开放标准优势,可获得更广泛的硬件供应链支持。尽管如此,Cornelis Networks凭借在低延迟、高消息率上的独特优势,以及更具吸引力的价格带,仍可能在特定高性能应用领域夺取一席之地。
随着PCIe 6.0生态的普及和Ultra Ethernet规范的推进,Omni-Path有望实现更紧密的行业合作和规范整合,提升网络灵活性和互通性,进而增强市场竞争力。总结来看,Omni-Path技术坐拥扎实的基因和前瞻的升级路线图,再加上Cornelis Networks深耕AI与HPC市场的决心,使其在未来几年内成为高速互联领域不可忽视的力量。在面对英伟达和以太网阵营强势竞争的同时,提供多样化解决方案和优化的成本性能比,将是其打开市场的关键。未来十年,Omni-Path的复兴与发展,或将推动AI及高性能计算基础设施达到新的高度,助力科学研究与智能应用迈向更广阔的空间。