随着人工智能技术的飞速发展,AI训练与推理对网络性能提出了极高的要求,传统以太网面临挑战,难以满足高带宽、低延迟和高可靠性的需求。Ultra Ethernet Consortium(UEC)应运而生,作为一种基于现代以太网的创新标准,UEC致力于优化大规模数据中心的网络性能,尤其针对AI和高性能计算(HPC)场景,提供革命性的技术支持。UEC的诞生不仅弥补了以太网在AI网络应用中的不足,还推动了网络技术的标准化与生态整合,促使以太网在新一代AI计算中重焕活力。 UEC背靠Linux联合开发基金会,秉持开源标准和多厂商合作精神,是对现有以太网网络技术的深度扩展和完善。它整合了LibFabric API,作为其核心接口,支持包括NCCL、RCCL、MPI等主流高性能网络协议,实现软硬件无缝协同。LibFabric在UEC中不仅是软件标准,更通过硬件加速的NIC实现提升,将传统CPU/GPU指令排队机制转为硬件级指令执行,大幅降低延迟,提高效率。
UEC最具创新性的理念之一是“作业”(Job)结构,它允许将分布在多端点的进程组成一个协调单元,通过Fabric Endpoint(FEP)进行高效通信。FEP的存在实现了多端点间的安全隔离和灵活调度,支持加密域,确保数据传输的保密性,同时提升系统的适应性和扩展能力。这种机制使得AI集群中的每个节点都能在高度统一的框架下互操作,极大地提升网络管理的简便性和安全性。 在网络数据传输方面,UEC引入了细粒度分包机制,将长消息切分为小数据包分散传输,配合多链路并行传输技术实现超高带宽利用率。UEC采用“轨道”(rail)概念并行处理多条数据路径,典型配置如800GbE接口划分为8条100Gbps数据通道,分别连接多台交换机,网络中的每条消息通过智能哈希算法动态调度到不同链路。这种多路径负载均衡不仅实现了带宽最大化,还提高了传输的稳定性和容错性。
应用层无需知晓这种复杂的路径管理,UEC通过硬件自动“轨道魔法”完成所有负载分配工作。 保障网络畅通无阻,控制拥塞是核心难题。UEC的拥塞控制模块UEC-CC通过亚微秒级的时间精度监测往返时延,基于交换机的ECN(显式拥塞通知)标记反馈精确识别拥堵位置。同时,网络终端基于丰富的网络状况信息动态调整发送速率,避免数据包丢失造成的重传开销。这种精细入微的机制替代了传统的RoCE和DCQCN流控方法,有效消除了因流控不匹配而引发的阻塞和延迟,确保在低延迟环境下实现稳定而高效的数据流。 安全方面,UEC设计了符合后量子密码学标准的传输安全子层,支持域级别的密钥管理和加密传输。
每个数据流均使用唯一派生的密钥和nonce,最大化安全性同时减少硬件表空间资源消耗。安全域管理实体的引入保证了加密策略的可信执行,满足现代数据中心对数据隐私和保密要求,加速了AI网络在对数据安全极度敏感领域的应用落地。 在传输层和链路层方面,UEC细致定义了数据包头格式,组织网络中的数据拆解与重组规则。尽管数据包头会增加一定的传输开销,但换取了更佳的流量控制和故障快速恢复能力,尤其适合现代模块化交换机架构。UEC支持多层交换机网络拓扑,大幅扩展集群规模和端口容量,实现成千上万个FEP的高效互联。 相比其他业内方案,如AMD主导的Ultra Accelerator Link(UALink)和Broadcom的Scale Up Ethernet(SUE),UEC覆盖了更为复杂的多级交换结构与更大规模的节点数量,其设计目标更加贴合未来跨越多个交换层的超大规模AI训练集群。
虽然UALink和SUE专注于单层交换机架构,但UEC凭借强大的多轨并行与精密拥塞管理,展现出更强的适应性和前瞻性。尽管UEC在支持更高速率链路方面略显滞后,仍主要使用100GbE作为基础,但其庞大的规格和开放标准优势为后续升级奠定了坚实基础。 UEC还鼓励采用内存映射接口技术,让端点像多核系统的计算核一样,直接通过载体寄存器访问远端内存,极大降低了访问延迟和CPU处理负担。这种设计趋势有望推动未来UEC IP核心集成至主芯片内部,增加芯片间通信的效率,也方便了软件栈的优化和生态的拓展。 从行业生态角度看,UEC由多个领先云服务商、芯片厂商和网络设备商联合推动,意在构建开放、互操作性强的AI网络环境,避免因厂商锁定带来的碎片化困境。其大规模的规范文档和详尽的测试标准也保证了硬件和软件兼容性,使得网络设备能够跨品牌协同工作,降低了建设维护复杂度。
实践层面,UEC规范已经覆盖了从链路层到安全层的各项关键技术细节,且结合当前数据中心常用的物理层以太网技术,保障部署的可行性。同时,UEC对于交换机端的支持也非常灵活,现有支持ECN等现代特性的以太网交换机无需强制更换即可参与UEC网络,使得升级路径更加顺畅便利。 从长远看,UEC的诞生是AI网络演进中的一个重要里程碑。它在保障高速、低延迟、大规模扩展的同时,也将网络安全和流量管理机制提升到新高度,符合未来智能计算生态对网络深度定制化的型需求。未来,随着芯片制造技术进步和数据中心对高速链路需求的激增,UEC与其支持厂商有望持续推出更高带宽的兼容版本,逐步改善当前链路速度偏低的短板,更好地服务于AI训练和推理工作负载。 总结来看,Ultra Ethernet UEC不仅是一套技术标准,更是连接未来AI世界的重要基础设施。
它克服了以太网早期不能直接满足超大规模AI计算网络的性能缺陷,通过开源合作实现软硬件共振,以多轨并行、硬件加速、智能流控和量子安全加密为核心,塑造了一个高度灵活、适应性强且面向未来的AI数据中心网络框架。随着越来越多云和芯片厂商的参与,UEC有望成为未来AI网络建设的主流趋势,引领数据中心网络迈入新纪元。