近几年,随着大语言模型(LLM)和各类人工智能应用的迅猛发展,硬件在推理阶段的瓶颈逐渐显现出来,尤其是推理流程中的预填阶段(prefill)和解码阶段(decode)对算力和内存的不同需求引发了硬件设计的全新思考。Nvidia作为AI硬件领域的领导者,于2025年重磅推出了Rubin CPX这款专门针对预填阶段设计的GPU,借此开创了专用预填加速器和分离架构的新纪元。 Rubin CPX之所以引发业内广泛关注,核心在于其针对推理预填阶段计算与内存需求特点做出的精准优化。推理预填阶段本质上计算密集,主要进行KVCache的生成,这一过程对计算吞吐量(FLOPS)的需求远高于对内存带宽的需求。传统采用高带宽内存(HBM)的大型GPU虽然提供了极高的内存带宽,但事与愿违地浪费了大量高昂成本的内存资源。对此,Rubin CPX摒弃了昂贵的HBM,采用更为经济的GDDR7内存,以降低成本且更贴合预填阶段的性能需求。
Rubin CPX搭载了128GB GDDR7内存,内存带宽约为2TB/s,远低于传统R200芯片的20.5TB/s,但其FP4稠密计算能力却达到了20PFLOPS,保持了极高的计算优势。单个CPX芯片的设计为单芯片单元,取消了HBM的CoWoS封装复杂度,整体架构更简洁且成本降低显著,使其成为预填推理任务中每美元计算性能的最佳选择。与搭载双芯片、多达288GB HBM、追求内存带宽的传统GPU形成鲜明对比,Rubin CPX以"瘦内存宽计算"理念实现了极致的性能性价比。 Nvidia不仅推出了Rubin CPX芯片本身,还围绕其构建了创新的Vera Rubin系列机架解决方案,使其可以无缝集成于数据中心环境。VR NVL144 CPX为代表的机架方案将传统的R200 GPU与大量配备Rubin CPX的预填专用GPU结合,支持18个计算托盘,其中每个托盘装有4颗R200和8颗Rubin CPX,带来了总算力与内存带宽配置的全新平衡。在液冷系统和无缆设计的加持下,整机架功耗管理和热管理效能进一步提升,实现了更高的功率密度和更稳定的运行。
更加灵活的选择则是Vera Rubin CPX双机架方案,采用分布式的设计理念,将预填与解码阶段分别布置在不同机架中。该设计为用户带来了根据具体业务需求调整预填与解码硬件比例的可能,使得系统能根据模型复杂度、调用频率及服务水平协议灵活扩展,避免资源闲置与性能瓶颈,最大程度释放推理效率。 分离专用硬件对于推理服务的影响极为深远。传统统一硬件架构下,由于预填和解码资源争抢导致性能波动与资源浪费不可避免。Rubin CPX的推出极大降低了高带宽内存的过度配置,从而降低了系统的总体拥有成本(TCO),优化了执行效率。分析表明,富含HBM的传统GPU在执行纯预填任务时,其昂贵的带宽大部分被闲置,造成约0.9美元/小时的浪费,而使用Rubin CPX则显著减少了这种浪费,强化了成本效益。
另外,Rubin CPX取消了传统NVLink互联结构,转而采用PCIe Gen6作为芯片间通讯接口,这一设计虽然牺牲了某些规模扩展的直接带宽,但结合流水线并行(pipeline parallelism)在预填阶段的优势,能够充分满足现代大模型模型拆分的需求,有效降低了互联硬件成本和系统复杂度。流水线并行的引入,既保障了高速大规模推理任务的吞吐量,也确保了通信延迟不会成为瓶颈,为后续更大规模、更灵活的推理系统奠定了基础。 从行业格局看,Rubin CPX的诞生无疑拉大了Nvidia与竞争对手的距离。AMD、谷歌、亚马逊等玩家多在自身数据中心内部工作负载推动下研发类似方案,但届时他们将面临重新规划芯片路线和架构设计的巨大压力。Nvidia通过Rubin CPX并配合Vera Rubin架构体系,抢先实现了根据推理阶段差异化需求打造专用硬件的愿景,增强了市场竞争力和生态系统的吸引力。 未来,随着推理技术的持续演进,对FP4及更低精度数值格式的依赖日益加深,Rubin CPX在低精度计算能力上展现的优势愈发明显。
同时,业界对于稀疏性的探索也为计算加速带来了新机遇,Rubin系列的稀疏方案将成为推动"黄氏定律"(Huang's Law)延续的重要驱动力,持续提升芯片的单位面积算力。 然而,硬件专用化也伴随着挑战。模型多样性和服务需求的变化使得预填与解码容量的比例需适时调整,而当前Vera Rubin NVL144 CPX的固定芯片比例可能缺乏灵活性,限制某些场景的定制适配。对此,未来可能推出更精细粒度的解码专用芯片,继续优化解码阶段耗费,同时保持整体系统的性能与成本平衡。 总结来看,Nvidia Rubin CPX的发布开启了AI推理硬件专用化的新篇章。其专注于提高预填阶段计算效率,降低昂贵高带宽内存依赖的策略,不仅实现了显著的成本优化,也推动了推理架构的分离与灵活设计。
结合Vera Rubin机架方案,Rubin CPX为下一代大规模推理服务提供了坚实的硬件基础,助力AI技术在多领域实现更高效、更经济的落地应用。未来,随着产业链的协同发展和新一代GPU的迭代升级,Rubin CPX模式有望引领行业更加精准、高效、智能的推理硬件革新潮流。 。