区块链技术 加密钱包与支付解决方案

揭秘AMD全新MI350加速器:访谈首席架构师解析CDNA4架构创新

区块链技术 加密钱包与支付解决方案
AMD's Freshly-Baked MI350: An Interview with the Chief Architect

AMD最新发布的MI350系列加速器基于CDNA4架构,凭借卓越性能与创新设计成为高性能计算与人工智能领域的焦点。本篇文章深入采访AMD首席架构师,剖析MI350背后的技术细节,探讨其架构演进、性能优化及设计哲学,助力读者全面了解这一划时代产品。

近期,AMD在其“Advancing AI 2025”大会上隆重推出了备受期待的MI350系列加速器。作为基于CDNA4架构的最新产品,这款加速器受到了业界广泛关注。为了更深入理解这一技术革新,我们特别采访了AMD资深专家、Instinct GPU的首席架构师Alan Smith,带来了关于MI350技术路线、架构设计思路及创新优势的详尽解读。 Alan Smith在访谈中首先介绍了自己在AMD的职责,作为该GPU系列的首席架构师,他直接参与了产品线的定义,与数据中心GPU业务合作伙伴密切沟通,推动需求转化为设计实施。此次MI350作为继承CDNA架构传统的代表作,仍然沿用了GFX9基础。外界对为何MI350依旧基于GFX9(俗称Vega系列架构)而非更先进的GFX11或GFX12版本颇感兴趣,Alan解释道,CDNA架构从前代产品就依托GCN(Graphics Core Next)技术,针对高性能计算及AI领域的分布式计算算法进行了深入优化。

GFX9具有成熟稳定的计算单元结构和高效的数据流设计,能够满足MI350严格的性能指标和市场定位,因此AMD选择以此为核心平台持续迭代打造。 MI350的计算单元中仍然保留了独立的一级缓存(L1 Cache)和本地数据存储(Local Data Store,LDS),这样的设计源自GCN架构的根基。虽然业内对将缓存和LDS整合的呼声不断,Alan表示此次架构升级并不适合做这一层面的微结构变化。代之以更实际的方案,是大幅增加LDS容量,MI350中的LDS由上一代的64KB提升至160KB,同时将LDS与寄存器文件之间的带宽提升一倍,以适应本代Tensor Core对高速数据吞吐的苛刻需求。 Tensor Core在MI350上得到了大幅升级,新引入的微缩数据格式FP8、FP6以及FP4在性能上实现突破。特别是FP6的处理速度与FP4持平,这在业界极为少见。

Alan分享,这一设计决定是在多年研发规划中早已敲定。考虑到FP6不仅能用于推理阶段,也具备潜力参与训练阶段的计算,AMD希望MI350在FP6性能上保持行业领先。虽然FP6比FP4多出几位数据位,因此带来了更大的硬件挑战。但设计团队成功在保持功率与面积受控的条件下实现了FP6与FP4同速的高吞吐率。 值得注意的是,MI350并未在硬件级别支持TF32格式。Alan解释,考虑到AI模型对数据类型兼容性的演变,BF16(Brain Float 16)已成为更加有效且通用的替代选择。

BF16不仅能满足大多数模型需求,且性能远超TF32,AMD因而决定取消TF32硬件加速支持。针对需要运行TF32的场景,平台提供了基于软件模拟的两种策略,既可通过BF16仿真TF32,也能转为使用FP32模式,赋予用户灵活选择。 MI350核心计算单元的制造工艺升级至台积电的N3P先进节点,而I/O芯片仍保留在相对成熟的N6工艺。Alan表示,两者采用不同制程是基于性能与成本的权衡。I/O芯片内置高速HBM PHY、收发器(SERDES)和SRAM缓存等组件,这类模块对先进工艺的适应性较低,反而在成熟节点下具备更高稳定性与良率,能够有效降低整体制造风险及造价。反观计算核心对面积与能效有极端需求,便显著受益于领先工艺提升。

MI350在芯片布局上实现了创新性调整。相比MI300系列由四个I/O芯片搭载两组加速器芯片组成的设计,MI350简化为两个I/O芯片,每个搭载四个加速器芯片。此举不仅提升了HBM3E内存的带宽,从前代的5.6Gbps提升至8Gbps,还实现更低电压运行,有效降低数据传输能耗。如此一来,在功率恒定的前提下,更多能量被释放到实际计算任务中,从而极大提升计算性能,特别是在内存带宽受限的负载下表现尤为突出。 在计算单元数量上,MI350实物共有36个计算单元,但仅启用32个。Alan指出,保留四个计算单元用于良率“采收”,是为了应对大规模量产中可能的缺陷,提高产品良率和制造效率。

更重要的是,启用32个计算单元符合二进制幂的设计逻辑,能极大优化张量运算的轻量化排布,避免了非整指数带来的运算尾效应,从而提升并行效率和整体性能。 MI350虽然更新了关键部分,但整体缓存层级结构未作变动。Alan解释,这主要因MI300已拥有极为强大的缓存和互联架构设计,凭借Infinity Fabric和XCC中高速加速计算核心,能够为双精度浮点矩阵运算提供充足带宽和缓存支持。MI350继承了这种设计,满足高性能计算需求,无需再作额外改造。 在功耗与散热上,MI350系列的两款产品——MI350x(1000瓦)与MI355x(1400瓦)带来了不同的挑战。AMD围绕三维封装结构的热设计展开深入工程研究,从主板、扩展板到芯片叠层,各层间热阻控制以及导热材料选择均经过精心优化。

针对不同用户需求,AMD提供包括空气冷却和直接液冷两大散热解决方案。在液冷方案中,冷板直接与芯片热面结合,高效带走堆叠内的热量,确保芯片运行在安全的温度范围。 此次访谈最后,Alan Smith被问及最喜欢的奶酪品种,风趣地答出了切达奶酪,并偏爱美国佛蒙特州的Cabot品牌。这份轻松的结尾,不仅拉近了技术与人文的距离,也体现了科技工作者的别样生活趣味。 总体来看,AMD MI350系列加速器在继承成熟架构设计的基础上,重点实现了计算单元、微缩数据类型支持、内存带宽以及芯片布局的创新提升。通过精准平衡制程工艺、功耗管理与数据流通畅性,MI350旨在为人工智能训练、高性能科学计算以及数据中心应用带来前所未有的性能突破。

随着人工智能技术的快速发展和算力需求的激增,AMD凭借此款重量级新品,再次展现了其在高性能计算领域的竞争力与技术前瞻性。 未来随着更多基于CDNA4生态的软件优化和硬件迭代,MI350平台有望成为下一代人工智能计算的核心支撑力量,为科研、工业仿真和深度学习等行业注入强大动力。关注AMD的技术动向,将更全面捕捉高性能GPU加速器的发展脉搏,掌握行业变革的机遇。

加密货币交易所的自动交易 以最优惠的价格买卖您的加密货币 Privatejetfinder.com

下一步
New SOTA Web Agent beats even Operator with human intervention
2025年09月14号 05点28分52秒 rtrvr.ai:颠覆性的本地DOM AI网页代理引领自动化新时代

rtrvr.ai以其独特的本地化运行和DOM结构驱动技术,在Halluminate Web Bench基准测试中实现了81.39%的成功率,显著超越业界领先者,包括需要人工干预的OpenAI Operator,为网页自动化设立了新的性能标杆,展现了未来AI网页代理的巨大潜力。

Jake Dot Museum
2025年09月14号 05点29分37秒 探索网络设计的历史瑰宝——深入了解Jake Dot Museum

Jake Dot Museum是一个珍贵的视觉和超文本媒体收藏,记录了网页设计与开发领域的一段非凡旅程。通过回顾早期互联网的点滴,揭示了网页创作者如何从草根经验成长为行业先锋。

LavinMQ 2.4.0 released – laying the groundwork for multithreading
2025年09月14号 05点30分30秒 LavinMQ 2.4.0重磅发布:迈向多线程新时代的开端

随着企业对高性能消息队列系统需求的不断增加,LavinMQ 2.4.0版本的发布为消息队列领域带来了崭新的发展契机。本文深度解读了LavinMQ 2.4.0的核心亮点、多线程架构的技术突破及其对分布式系统的深远影响,帮助开发者全面了解这一重要版本的价值和未来潜力。

Commentario: Add comments to your web page or blog
2025年09月14号 05点31分14秒 利用Commentario提升网站互动性与用户体验的秘诀

揭示如何通过Commentario在您的网页或博客中添加评论功能,从而增强用户参与度,提升网站活跃度与搜索引擎排名。本文详细解析Commentario的优势、安装方法及优化策略,助力网站管理员打造高效互动平台。

debi: reinstall your VPS to minimal Debian
2025年09月14号 05点32分34秒 使用Debi脚本轻松将VPS重新安装为极简Debian系统的全攻略

深入解析如何通过Debi脚本将虚拟专用服务器(VPS)快速重装为极简的Debian操作系统,详解安装流程、配置选项以及常见问题解决方案,助力用户打造轻量性能优异的服务器环境。

Why Trading Edge Alone Won't Make You Profitable
2025年09月14号 05点33分32秒 交易优势不足以保证盈利:打造全面交易系统的关键之路

探讨为何单靠交易优势难以实现持续盈利,深入分析交易者在心态、风险管理、执行纪律和资本规模方面的挑战,揭示通往交易成功的多维度路径。

Culturing, a Life's Work in Progress
2025年09月14号 05点34分17秒 培养诗意生活:从“Culturing”到生命的不断成长

探索诗歌如何像生命一样有机成长,了解作者如何通过自我出版和持续创作保持文化的活力与独特性,感受诗歌与生活融合的无尽可能。