随着人工智能技术的高速发展,GPU作为AI模型训练与推理的核心硬件,成为驱动智能化进步的中坚力量。作为AMD(超威半导体)最新的AI计算核心,MI350X与MI400 UALoE72系列显著提升了在性能及能效方面的竞争力,同时为未来更高端的MI500 UAL256奠定坚实基础。本文将全面解析AMD在AI领域的技术突破、市场战略以及生态系统搭建,探讨其如何与英伟达展开正面竞争,并助推行业进入新阶段。 AMD MI350X与MI355X——聚焦中小型模型推理的高性价比方案 MI350X系列芯片基于AMD最新的CDNA4架构设计,拥有1000瓦的功耗设计,采用空气冷却形式,主要定位于中小型AI模型的推理应用。另一方面,MI355X作为MI350X的升级版,支持1400瓦功耗并具备液冷和风冷双重散热方案,虽然功耗更高,但在实际性能释放上仅提升约10%。两者均在FP8、BF16、FP4等新兴的AI数据类型上,表现出了较为优异的算力指标,特别是在FP6运算方面,MI355X表现出比英伟达同级产品B200显著的吞吐优势。
值得注意的是,尽管MI355X因未采用典型的深度液冷系统而被AMD市场营销解释为经济且易于部署的解决方案,但它并非真正意义上的集群级(rack-scale)产品,八卡规模的集成限制了其大规模推理和训练复杂模型时的性能发挥,明显落后于英伟达GB200 NVL72的72卡规模架构。尽管存在规模限制,基于其出色的显存容量和较低的总体拥有成本(TCO),MI350X及MI355X依然能够在针对中小型AI模型推理市场展现极佳的竞争优势。 MI400系列——迈向真正的机架级AI计算架构 相比MI350X系列,AMD MI400系列的设计目标更聚焦于构建真正意义上的机架级AI服务器,支持高达72个逻辑GPU的规模扩展。这使得MI400能够更全面地满足大型推理及训练模型对大规模互联带宽和低延迟通信网络的需求。 MI400在通信协议方面采用了AMD重新包装的“UALink over Ethernet”(基于Infinity Fabric over Ethernet技术),虽然并非纯正的NVLink对等协议,但通过灵活的I/O设计实现了128Gbps带宽且结合Broadcom Tomahawk 6系列交换机,为数据中心间规模通信提供了有力支持。这一设计虽然面临一定的工程挑战,但弥补了AMD此前在高速互联技术上的不足,也为后续产品升级提供了重要经验。
此外,MI400系列灵活I/O架构支持多种协议的混合使用,PCIe 6.0、xGMI 4和ULLink等技术均可协同工作,支持SSD直接挂载GPU,为AI训练和推理带来更低的I/O瓶颈和更好的数据访问效率。这种高度通用灵活的设计,使MI400成为未来AI计算复杂生态系统的重要基石。 MI500 UAL256展望——突破256芯片规模极限的新时代 AMD计划在2027年发布MI500 UAL256,该产品将突破当前MI400及英伟达VR300系列144芯片规模的限制,实现256个物理或逻辑芯片的无缝扩展。这不仅仅是算力的简单线性提升,更代表了AMD在芯片互联、数据交互效率及低延迟网络技术上的重大突破。 MI500将继续采用CDNA4及其后继微架构技术,依托升级强化的HBM高速内存体系和强化的多节点通信协议,目标对标甚至超越主流英伟达旗舰设备,从而在未来大型AI训练和推理市场中占据重要位置。其灵活的I/O设计及规模化的可扩展能力,将为AI研发机构、大型云计算平台和超级计算中心提供更高效的算力资源保障。
软件生态与市场策略加速AMD AI布局 AMD近年来不仅在硬件方面持续创新,也在软件平台尤其是ROCm领域发力。最新发布的ROCm 7大幅提升了推理吞吐和兼容性,实现了对PyTorch等主流深度学习框架更好的支持,推动能够快速适配和优化AI模型训练及推理性能。同时,AMD积极推进PyTorch的持续集成(CI)和自动化测试,逐步改善开源社区的开发体验。 在市场层面,AMD创新采用了租赁回购计划,积极扶持包括AWS、Oracle、Digital Ocean等多个新兴与传统云服务提供商构建AMD Neocloud生态,推动更多云平台集成和扩大AMD GPU计算资源的可用性。通过提供灵活的价格模型及租赁激励,AMD试图打破Nvidia在Neocloud云GPU租赁市场的垄断,创造更具价格竞争力的租赁环境。 此外,AMD也在不断修正内部薪资结构,力图吸引和留住一流AI硬件与软件工程人才,为技术长远发展构筑坚实人才保障。
这样的战略调整,有助于快速提升AMD在AI高端计算领域的创新力和市场响应能力。 软件技术不足与未来改进挑战 尽管取得诸多进步,AMD仍面临不少硬件软件协同优化的挑战。其通信协议库RCCL在多节点扩展方面尚处于模仿英伟达NCCL的阶段,缺乏对高效异步通信等特性的支持,成为限制规模化训练效率的瓶颈。与此同时,AMD在多节点模型推理高效分布式技术如DeepEP或disaggregated prefill的优化尚未成熟,未来改进空间巨大。 GPU分区功能(MIG)虽为AMD投入大量工程资源,但从行业应用角度看少有客户实际需求,且不被大型推理任务采纳,AMD应优先把资源集中于更重要的架构和通信性能优化。 小结 作为AI算力赛道上的新生力量,AMD凭借MI350X、MI400 UALoE72及未来MI500 UAL256等产品布局,展现出强劲的技术实力与市场野心。
通过创新芯片架构、灵活的I/O设计以及加速软件生态建设,AMD正逐步抢占AI硬件市场份额,并通过租赁激励策略培育丰富Neocloud生态,扩大用户基础。 然而,真正实现与英伟达的正面竞争,AMD还需持续突破规模化通信瓶颈和多节点软件优化难题,加大研发投入,完善开发者生态并提升人才竞争力。未来随着MI500系列的到来,AMD有望构筑更完整的AI算力体系,成为推动智能时代发展的一支重要力量。