近年来,人工智能技术以惊人的速度飞跃发展,AI计算性能成为推动智能时代进步的重要推动力。在这一背景下,华为于2025年9月19日亮相了其最新旗舰级超级计算平台 - - Atlas 950超级集群,承诺实现高达1 ZettaFLOPS FP4的推理性能,为AI应用开辟了更加广阔的计算可能性。这一突破不仅彰显了华为在全球AI硬件领域的雄心,也展示出中国在AI算力自主可控上的显著进步。 Atlas 950超级集群的核心是华为自主研发的Ascend 950DT神经处理单元。该超级集群搭载了多达524,288颗Ascend 950DT芯片,通过超过10,240个光互联机柜互联,实现了极为庞大的计算规模。相比华为此前的Atlas 900 A3 SuperPoD,Atlas 950单个SuperPoD拥有8192颗Ascend 950DT芯片,计算能力提升了20倍,FP8计算性能达到8 ExaFLOPS,FP4计算性能则跃升至16 ExaFLOPS。
通过64个此类SuperPoD的构建,整个平台的FP8训练性能可达524 ExaFLOPS,FP4推理性能更是突破1 ZettaFLOPS大关,成为引领全球AI超级计算的佼佼者。 从架构设计上看,Atlas 950超级集群采用了先进的光纤连接技术和高效网络协议。它支持远程直接内存访问的RoCE协议,并引入华为自研的统一总线以太网(UBoE)协议,后者在降低空闲延迟、提升硬件可靠性以及简化交换机和光模块配置方面表现出显著优势。这不仅提升了超级集群内部的数据流通效率,更为大规模复杂AI模型训练和实时推理任务提供了坚实的网络基础。 在规模方面,Atlas 950超级集群的体量同样令人瞩目。超级集群共由160个机柜组成,其中128个用于计算,32个用于通信,整体占地面积约为64,000平方米,等同于150个篮球场或九个标准足球场的面积。
如此庞大的物理规模保证了超级集群能够承载日益增长的AI模型规模,支持从数百亿到上万亿参数的密集及稀疏模型开发。 然而,庞大的体量也带来了挑战。相较于NVIDIA最新的Vera Rubin NVL144超级计算平台只需数平方米空间,华为通过数量优势"堆叠"运算单元,以实现其ZettaFLOPS性能目标。此举展现出华为在AI硬件设计中"不以单芯片性能为核心,而以系统整体算力扩展为发展思路"的战略思考,力图通过超级规模集成对抗国际先进GPU平台的技术领先优势。 性能指标上,Atlas 950超级集群在FP4推理性能方面极具竞争力,这是现代深度学习推理所依赖的关键计算格式。FP4数据格式在保证推理速度的同时,显著降低了功耗和算力需求,适合部署在大规模云端及边缘计算环境。
华为预计该平台将与2026年发布的NVIDIA Rubin架构超级计算系统正面竞争,为AI开发者和企业客户带来更丰富的选择和更高效的算力资源。 在应用领域,Atlas 950超级集群适合支持各种需要高算力的复杂AI模型,涵盖自然语言处理、计算机视觉、推荐系统以及自动驾驶等前沿技术。凭借其强大的训练和推理能力,预计能显著缩短超大规模模型训练时间,提升推理响应速度,从而推动行业智能化转型升级。 华为同时披露了未来的产品规划,计划于2027年第四季度推出更加先进的Atlas 960超级集群。该系统预计升级至超过100万个Ascend 960芯片,提供2 ZettaFLOPS FP8训练性能及4 ZettaFLOPS MXFP4推理性能,继续兼容UBoE和RoCE协议,进一步优化延迟和系统可靠性。这预示着华为将持续投入巨资和技术力量,保持在AI超级计算发展的领先地位。
此外,华为强调了其AI芯片生态的发展路径,致力于构建从硬件到软件的完备AI计算堆栈,提升整体算力效率,降低客户使用和部署门槛。面对国际环境中芯片技术限制与竞争压力,华为依托自主研发和系统设计,力图实现算力自主可控,促进中国AI技术的持续创新和产业升级。 纵观Atlas 950超级集群,华为展现了对未来AI算力需求的深刻洞察及可行应对方案。借助庞大的Ascend 950DT芯片群、先进的互联技术及智能网络协议,该平台不仅提升了算力极限,也为日益增长的AI模型复杂度提供了坚实支撑。虽然其体积庞大亦带来部署难度,但在当前全球AI超级计算格局中,其技术创新和规模扩展战略无疑彰显了华为作为新兴AI计算巨头的实力。 总而言之,华为Atlas 950超级集群的发布,是AI计算领域迈向ExaFLOPS和ZettaFLOPS时代的重要里程碑。
它不仅承载了华为在芯片研发、系统集成和网络创新方面的尖端技术,也预示了下一代AI超级计算将以更高算力支撑人工智能的蓬勃发展。随着其与国际竞争对手的技术博弈加剧,全球AI算力版图或将因此迎来深刻的重塑和变革,加速推动人类社会智能化进程进入新纪元。 。