近期,AMD在其“Advancing AI 2025”大会上隆重推出了备受期待的MI350系列加速器。作为基于CDNA4架构的最新产品,这款加速器受到了业界广泛关注。为了更深入理解这一技术革新,我们特别采访了AMD资深专家、Instinct GPU的首席架构师Alan Smith,带来了关于MI350技术路线、架构设计思路及创新优势的详尽解读。 Alan Smith在访谈中首先介绍了自己在AMD的职责,作为该GPU系列的首席架构师,他直接参与了产品线的定义,与数据中心GPU业务合作伙伴密切沟通,推动需求转化为设计实施。此次MI350作为继承CDNA架构传统的代表作,仍然沿用了GFX9基础。外界对为何MI350依旧基于GFX9(俗称Vega系列架构)而非更先进的GFX11或GFX12版本颇感兴趣,Alan解释道,CDNA架构从前代产品就依托GCN(Graphics Core Next)技术,针对高性能计算及AI领域的分布式计算算法进行了深入优化。
GFX9具有成熟稳定的计算单元结构和高效的数据流设计,能够满足MI350严格的性能指标和市场定位,因此AMD选择以此为核心平台持续迭代打造。 MI350的计算单元中仍然保留了独立的一级缓存(L1 Cache)和本地数据存储(Local Data Store,LDS),这样的设计源自GCN架构的根基。虽然业内对将缓存和LDS整合的呼声不断,Alan表示此次架构升级并不适合做这一层面的微结构变化。代之以更实际的方案,是大幅增加LDS容量,MI350中的LDS由上一代的64KB提升至160KB,同时将LDS与寄存器文件之间的带宽提升一倍,以适应本代Tensor Core对高速数据吞吐的苛刻需求。 Tensor Core在MI350上得到了大幅升级,新引入的微缩数据格式FP8、FP6以及FP4在性能上实现突破。特别是FP6的处理速度与FP4持平,这在业界极为少见。
Alan分享,这一设计决定是在多年研发规划中早已敲定。考虑到FP6不仅能用于推理阶段,也具备潜力参与训练阶段的计算,AMD希望MI350在FP6性能上保持行业领先。虽然FP6比FP4多出几位数据位,因此带来了更大的硬件挑战。但设计团队成功在保持功率与面积受控的条件下实现了FP6与FP4同速的高吞吐率。 值得注意的是,MI350并未在硬件级别支持TF32格式。Alan解释,考虑到AI模型对数据类型兼容性的演变,BF16(Brain Float 16)已成为更加有效且通用的替代选择。
BF16不仅能满足大多数模型需求,且性能远超TF32,AMD因而决定取消TF32硬件加速支持。针对需要运行TF32的场景,平台提供了基于软件模拟的两种策略,既可通过BF16仿真TF32,也能转为使用FP32模式,赋予用户灵活选择。 MI350核心计算单元的制造工艺升级至台积电的N3P先进节点,而I/O芯片仍保留在相对成熟的N6工艺。Alan表示,两者采用不同制程是基于性能与成本的权衡。I/O芯片内置高速HBM PHY、收发器(SERDES)和SRAM缓存等组件,这类模块对先进工艺的适应性较低,反而在成熟节点下具备更高稳定性与良率,能够有效降低整体制造风险及造价。反观计算核心对面积与能效有极端需求,便显著受益于领先工艺提升。
MI350在芯片布局上实现了创新性调整。相比MI300系列由四个I/O芯片搭载两组加速器芯片组成的设计,MI350简化为两个I/O芯片,每个搭载四个加速器芯片。此举不仅提升了HBM3E内存的带宽,从前代的5.6Gbps提升至8Gbps,还实现更低电压运行,有效降低数据传输能耗。如此一来,在功率恒定的前提下,更多能量被释放到实际计算任务中,从而极大提升计算性能,特别是在内存带宽受限的负载下表现尤为突出。 在计算单元数量上,MI350实物共有36个计算单元,但仅启用32个。Alan指出,保留四个计算单元用于良率“采收”,是为了应对大规模量产中可能的缺陷,提高产品良率和制造效率。
更重要的是,启用32个计算单元符合二进制幂的设计逻辑,能极大优化张量运算的轻量化排布,避免了非整指数带来的运算尾效应,从而提升并行效率和整体性能。 MI350虽然更新了关键部分,但整体缓存层级结构未作变动。Alan解释,这主要因MI300已拥有极为强大的缓存和互联架构设计,凭借Infinity Fabric和XCC中高速加速计算核心,能够为双精度浮点矩阵运算提供充足带宽和缓存支持。MI350继承了这种设计,满足高性能计算需求,无需再作额外改造。 在功耗与散热上,MI350系列的两款产品——MI350x(1000瓦)与MI355x(1400瓦)带来了不同的挑战。AMD围绕三维封装结构的热设计展开深入工程研究,从主板、扩展板到芯片叠层,各层间热阻控制以及导热材料选择均经过精心优化。
针对不同用户需求,AMD提供包括空气冷却和直接液冷两大散热解决方案。在液冷方案中,冷板直接与芯片热面结合,高效带走堆叠内的热量,确保芯片运行在安全的温度范围。 此次访谈最后,Alan Smith被问及最喜欢的奶酪品种,风趣地答出了切达奶酪,并偏爱美国佛蒙特州的Cabot品牌。这份轻松的结尾,不仅拉近了技术与人文的距离,也体现了科技工作者的别样生活趣味。 总体来看,AMD MI350系列加速器在继承成熟架构设计的基础上,重点实现了计算单元、微缩数据类型支持、内存带宽以及芯片布局的创新提升。通过精准平衡制程工艺、功耗管理与数据流通畅性,MI350旨在为人工智能训练、高性能科学计算以及数据中心应用带来前所未有的性能突破。
随着人工智能技术的快速发展和算力需求的激增,AMD凭借此款重量级新品,再次展现了其在高性能计算领域的竞争力与技术前瞻性。 未来随着更多基于CDNA4生态的软件优化和硬件迭代,MI350平台有望成为下一代人工智能计算的核心支撑力量,为科研、工业仿真和深度学习等行业注入强大动力。关注AMD的技术动向,将更全面捕捉高性能GPU加速器的发展脉搏,掌握行业变革的机遇。