类别
NFT 和数字艺术元宇宙与虚拟现实加密交易所新闻加密初创公司与风险投资加密市场分析加密活动与会议加密税务与合规加密货币的机构采用加密钱包与支付解决方案加密骗局与安全	区块链技术去中心化金融 (DeFi) 新闻山寨币更新投资策略与投资组合管理挖矿与质押比特币监管和法律更新稳定币与中央银行数字货币行业领袖访谈首次代币发行 (ICO) 和代币销售

页面
主页关于条款	搜索

请捐款 BTC

类别
NFT 和数字艺术元宇宙与虚拟现实加密交易所新闻加密初创公司与风险投资加密市场分析加密活动与会议加密税务与合规加密货币的机构采用加密钱包与支付解决方案加密骗局与安全	区块链技术去中心化金融 (DeFi) 新闻山寨币更新投资策略与投资组合管理挖矿与质押比特币监管和法律更新稳定币与中央银行数字货币行业领袖访谈首次代币发行 (ICO) 和代币销售

页面
主页关于条款	搜索

请捐款 BTC

类别
NFT 和数字艺术元宇宙与虚拟现实加密交易所新闻加密初创公司与风险投资加密市场分析加密活动与会议	加密税务与合规加密货币的机构采用加密钱包与支付解决方案加密骗局与安全区块链技术去中心化金融 (DeFi) 新闻	山寨币更新投资策略与投资组合管理挖矿与质押比特币监管和法律更新稳定币与中央银行数字货币	行业领袖访谈首次代币发行 (ICO) 和代币销售

页面
主页关于条款	搜索

请捐款 BTC

类别
NFT 和数字艺术元宇宙与虚拟现实加密交易所新闻加密初创公司与风险投资加密市场分析加密活动与会议	加密税务与合规加密货币的机构采用加密钱包与支付解决方案加密骗局与安全区块链技术去中心化金融 (DeFi) 新闻	山寨币更新投资策略与投资组合管理挖矿与质押比特币监管和法律更新稳定币与中央银行数字货币	行业领袖访谈首次代币发行 (ICO) 和代币销售

页面
主页关于条款	搜索

请捐款 BTC

2025年09月01号 04点03分17秒

AMD MI350及CDNA 4架构重磅发布，ROCm 7全面助力AI加速新时代

NFT 和数字艺术

钱财 qian.cx

AMD正式推出最新的MI350加速器和基于CDNA 4架构的技术创新，结合ROCm 7软件平台，为人工智能领域带来强劲的计算性能和提升的内存带宽，实现更高效的AI训练和推理能力。

随着人工智能和高性能计算的不断发展，硬件加速器的革新成为推动技术进步的关键因素。2025年6月，AMD发布了新一代Instinct MI350加速器以及基于全新CDNA 4架构的创新设计，配合ROCm 7软件平台，为数据中心和AI开发者带来前所未有的性能提升和更便捷的软件体验。AMD此次发布的产品不仅关注硬件层面的高性能和能效，还着重优化了面向AI工作负载的低精度计算能力，进一步巩固了其在AI加速市场的竞争力。 MI350硬件设计采用了模块化芯片组的理念，结合先进的3D堆叠封装技术，采用台积电N3P工艺制程，提升了芯片的能效比和计算密度。MI350集成了8个XCD计算芯片，每个XCD包含32个CDNA 4计算单元，总计256个计算单元，这些计算单元经过结构优化，算力更加强大。相比前代产品，尽管计算单元数量有所减少，但每个单元的性能增进显著，因而整体加速器的计算能力能够达到甚至超过预期。

架构设计上，MI350取消了四个I/O芯片，转而采用两个更大面积的I/O芯片，涵盖更广泛的计算和内存拓扑结构，减少了跨I/O芯片的数据传输开销，极大提升了数据流效率。Infinity Fabric互联技术和全新的Infinity Cache系统则在提升芯片内部带宽和延迟方面发挥了重要作用，使大量数据可以快速在计算单元和内存之间流动，解决了AI计算中因数据等待导致的性能瓶颈。为了满足现代大型语言模型和深度学习的计算需求，MI350进一步扩展了内存容量和带宽，使得更多数据能在加速器上近距离存储和处理，极大减少了数据传输延迟。此外，MI350还引入了对低位宽数据格式的强化支持，重点发展FP6浮点格式，与FP4浮点格式共同构成了新的计算引擎，针对AI推理中普遍使用的低精度计算进行了深度优化。这种硬件级别的改进不仅提高了计算效率，也显著提升了单位功耗的算力表现。在软件生态方面，AMD重磅推出ROCm 7平台，旨在为MI350及未来的CDNA 4架构提供强有力的软件支撑。

ROCm 7通过更完善的驱动和库更新，确保开发者可以无缝访问硬件加速功能，同时简化了安装和使用流程。AMD正努力实现ROCm的“一键安装”体验，未来ROCm 7预计将通过pip工具轻松安装，极大降低了开发门槛。值得一提的是，ROCm 7将开放支持更多操作系统和设备类型。AMD计划在2025年内将ROCm扩展至笔记本电脑，涵盖包括Red Hat EPEL、Ubuntu、OpenSUSE、Fedora等Linux发行版，甚至实现无WSL支持的Windows平台运行。这意味着搭载AMD Ryzen AI MAX+ 395处理器的用户，可以直接在Windows系统上运行ROCm，无需额外配置虚拟层，为AI开发和研究提供了极大便利。基于MI350加速器的AI性能提升尤为显著。

AMD展示了基于MI355X液冷版本FP8计算性能与NVIDIA B200的对比，结果表明MI355X在低精度算力和内存带宽优势突出，符合现代大规模AI训练的需求。AMD的企业AI战略和AI Developer Cloud平台也同步推出，通过云端资源和软件服务助力客户快速部署和调优AI模型，打造完整的开发生态。相较于上一代MI300系列更注重FP64高精度计算，CDNA 4架构针对AI领域将重点放在低精度计算优化上，体现AMD对当下人工智能需求的精准把握。无论是大型语言模型的训练效率还是推理时的性能表现，MI350均实现了显著提升，这为数据中心、科研机构和企业在AI计算方面提供了更具性价比的解决方案。另外，MI350平台采用了OAM UBB（Universal Baseboard）标准8-GPU通用基板形式，为硬件扩展和整合提供高度兼容性。配合空气冷却的MI350X和液冷版本MI355X，用户可根据自身需求灵活选择方案。

液冷版本最高功率可达1.4千瓦，可支持多达128个GPU的规模部署，尽管空间需求较大，但极大提升了超级计算规模，满足了未来AI计算对大规模GPU集群的强烈诉求。从硬件架构到软件生态，AMD此次发布的MI350和CDNA 4架构展示了公司在AI硬件领域的坚实布局和技术积淀。随着ROCm 7软件平台的不断完善，开发者能够更加便利、高效地发挥MI350硬件潜能，推动从实验室到生产环境的AI应用落地。未来随着更多芯片制造技术和AI优化算法的融合，AMD有望继续引领业内变革，为AI计算时代注入强劲动力。全面提升的算力表现、先进的低精度计算支持、强大的内存性能以及良好的软件生态是MI350和CDNA 4成功的关键，这些优势将加速人工智能研究与应用的广泛普及，为各行业带来深远影响。