类别
NFT 和数字艺术元宇宙与虚拟现实加密交易所新闻加密初创公司与风险投资加密市场分析加密活动与会议加密税务与合规加密货币的机构采用加密钱包与支付解决方案加密骗局与安全	区块链技术去中心化金融 (DeFi) 新闻山寨币更新投资策略与投资组合管理挖矿与质押比特币监管和法律更新稳定币与中央银行数字货币行业领袖访谈首次代币发行 (ICO) 和代币销售

页面
主页关于条款	搜索

请捐款 BTC

类别
NFT 和数字艺术元宇宙与虚拟现实加密交易所新闻加密初创公司与风险投资加密市场分析加密活动与会议加密税务与合规加密货币的机构采用加密钱包与支付解决方案加密骗局与安全	区块链技术去中心化金融 (DeFi) 新闻山寨币更新投资策略与投资组合管理挖矿与质押比特币监管和法律更新稳定币与中央银行数字货币行业领袖访谈首次代币发行 (ICO) 和代币销售

页面
主页关于条款	搜索

请捐款 BTC

类别
NFT 和数字艺术元宇宙与虚拟现实加密交易所新闻加密初创公司与风险投资加密市场分析加密活动与会议	加密税务与合规加密货币的机构采用加密钱包与支付解决方案加密骗局与安全区块链技术去中心化金融 (DeFi) 新闻	山寨币更新投资策略与投资组合管理挖矿与质押比特币监管和法律更新稳定币与中央银行数字货币	行业领袖访谈首次代币发行 (ICO) 和代币销售

页面
主页关于条款	搜索

请捐款 BTC

类别
NFT 和数字艺术元宇宙与虚拟现实加密交易所新闻加密初创公司与风险投资加密市场分析加密活动与会议	加密税务与合规加密货币的机构采用加密钱包与支付解决方案加密骗局与安全区块链技术去中心化金融 (DeFi) 新闻	山寨币更新投资策略与投资组合管理挖矿与质押比特币监管和法律更新稳定币与中央银行数字货币	行业领袖访谈首次代币发行 (ICO) 和代币销售

页面
主页关于条款	搜索

请捐款 BTC

2025年09月14号 05点27分53秒

揭秘AMD全新MI350加速器：访谈首席架构师解析CDNA4架构创新

区块链技术加密钱包与支付解决方案

钱财 qian.cx

AMD最新发布的MI350系列加速器基于CDNA4架构，凭借卓越性能与创新设计成为高性能计算与人工智能领域的焦点。本篇文章深入采访AMD首席架构师，剖析MI350背后的技术细节，探讨其架构演进、性能优化及设计哲学，助力读者全面了解这一划时代产品。

近期，AMD在其“Advancing AI 2025”大会上隆重推出了备受期待的MI350系列加速器。作为基于CDNA4架构的最新产品，这款加速器受到了业界广泛关注。为了更深入理解这一技术革新，我们特别采访了AMD资深专家、Instinct GPU的首席架构师Alan Smith，带来了关于MI350技术路线、架构设计思路及创新优势的详尽解读。 Alan Smith在访谈中首先介绍了自己在AMD的职责，作为该GPU系列的首席架构师，他直接参与了产品线的定义，与数据中心GPU业务合作伙伴密切沟通，推动需求转化为设计实施。此次MI350作为继承CDNA架构传统的代表作，仍然沿用了GFX9基础。外界对为何MI350依旧基于GFX9（俗称Vega系列架构）而非更先进的GFX11或GFX12版本颇感兴趣，Alan解释道，CDNA架构从前代产品就依托GCN（Graphics Core Next）技术，针对高性能计算及AI领域的分布式计算算法进行了深入优化。

GFX9具有成熟稳定的计算单元结构和高效的数据流设计，能够满足MI350严格的性能指标和市场定位，因此AMD选择以此为核心平台持续迭代打造。 MI350的计算单元中仍然保留了独立的一级缓存（L1 Cache）和本地数据存储（Local Data Store，LDS），这样的设计源自GCN架构的根基。虽然业内对将缓存和LDS整合的呼声不断，Alan表示此次架构升级并不适合做这一层面的微结构变化。代之以更实际的方案，是大幅增加LDS容量，MI350中的LDS由上一代的64KB提升至160KB，同时将LDS与寄存器文件之间的带宽提升一倍，以适应本代Tensor Core对高速数据吞吐的苛刻需求。 Tensor Core在MI350上得到了大幅升级，新引入的微缩数据格式FP8、FP6以及FP4在性能上实现突破。特别是FP6的处理速度与FP4持平，这在业界极为少见。

Alan分享，这一设计决定是在多年研发规划中早已敲定。考虑到FP6不仅能用于推理阶段，也具备潜力参与训练阶段的计算，AMD希望MI350在FP6性能上保持行业领先。虽然FP6比FP4多出几位数据位，因此带来了更大的硬件挑战。但设计团队成功在保持功率与面积受控的条件下实现了FP6与FP4同速的高吞吐率。值得注意的是，MI350并未在硬件级别支持TF32格式。Alan解释，考虑到AI模型对数据类型兼容性的演变，BF16（Brain Float 16）已成为更加有效且通用的替代选择。

BF16不仅能满足大多数模型需求，且性能远超TF32，AMD因而决定取消TF32硬件加速支持。针对需要运行TF32的场景，平台提供了基于软件模拟的两种策略，既可通过BF16仿真TF32，也能转为使用FP32模式，赋予用户灵活选择。 MI350核心计算单元的制造工艺升级至台积电的N3P先进节点，而I/O芯片仍保留在相对成熟的N6工艺。Alan表示，两者采用不同制程是基于性能与成本的权衡。I/O芯片内置高速HBM PHY、收发器（SERDES）和SRAM缓存等组件，这类模块对先进工艺的适应性较低，反而在成熟节点下具备更高稳定性与良率，能够有效降低整体制造风险及造价。反观计算核心对面积与能效有极端需求，便显著受益于领先工艺提升。

MI350在芯片布局上实现了创新性调整。相比MI300系列由四个I/O芯片搭载两组加速器芯片组成的设计，MI350简化为两个I/O芯片，每个搭载四个加速器芯片。此举不仅提升了HBM3E内存的带宽，从前代的5.6Gbps提升至8Gbps，还实现更低电压运行，有效降低数据传输能耗。如此一来，在功率恒定的前提下，更多能量被释放到实际计算任务中，从而极大提升计算性能，特别是在内存带宽受限的负载下表现尤为突出。在计算单元数量上，MI350实物共有36个计算单元，但仅启用32个。Alan指出，保留四个计算单元用于良率“采收”，是为了应对大规模量产中可能的缺陷，提高产品良率和制造效率。

更重要的是，启用32个计算单元符合二进制幂的设计逻辑，能极大优化张量运算的轻量化排布，避免了非整指数带来的运算尾效应，从而提升并行效率和整体性能。 MI350虽然更新了关键部分，但整体缓存层级结构未作变动。Alan解释，这主要因MI300已拥有极为强大的缓存和互联架构设计，凭借Infinity Fabric和XCC中高速加速计算核心，能够为双精度浮点矩阵运算提供充足带宽和缓存支持。MI350继承了这种设计，满足高性能计算需求，无需再作额外改造。在功耗与散热上，MI350系列的两款产品——MI350x（1000瓦）与MI355x（1400瓦）带来了不同的挑战。AMD围绕三维封装结构的热设计展开深入工程研究，从主板、扩展板到芯片叠层，各层间热阻控制以及导热材料选择均经过精心优化。

针对不同用户需求，AMD提供包括空气冷却和直接液冷两大散热解决方案。在液冷方案中，冷板直接与芯片热面结合，高效带走堆叠内的热量，确保芯片运行在安全的温度范围。此次访谈最后，Alan Smith被问及最喜欢的奶酪品种，风趣地答出了切达奶酪，并偏爱美国佛蒙特州的Cabot品牌。这份轻松的结尾，不仅拉近了技术与人文的距离，也体现了科技工作者的别样生活趣味。总体来看，AMD MI350系列加速器在继承成熟架构设计的基础上，重点实现了计算单元、微缩数据类型支持、内存带宽以及芯片布局的创新提升。通过精准平衡制程工艺、功耗管理与数据流通畅性，MI350旨在为人工智能训练、高性能科学计算以及数据中心应用带来前所未有的性能突破。

随着人工智能技术的快速发展和算力需求的激增，AMD凭借此款重量级新品，再次展现了其在高性能计算领域的竞争力与技术前瞻性。未来随着更多基于CDNA4生态的软件优化和硬件迭代，MI350平台有望成为下一代人工智能计算的核心支撑力量，为科研、工业仿真和深度学习等行业注入强大动力。关注AMD的技术动向，将更全面捕捉高性能GPU加速器的发展脉搏，掌握行业变革的机遇。