在人工智能飞速发展的背景下,AI模型的推理性能成为衡量系统性能和实际应用效果的重要指标。MLCommons组织发布的MLPerf推理基准测试,一直以来都是衡量AI推理性能的权威标准。2025年9月,MLPerf发布了最新的推理套件版本v5.1,本轮测试中,不仅参与者数量达到历史最高的27家,更引入了三项全新基准测试,涵盖推理模型的不同应用场景,进一步丰富了推理性能的评测维度。此次发布无疑展示了AI推理技术的快速迭代和市场的巨大活力。 新基准的加入极大地拓宽了MLPerf的测试范围。基于DeepSeek-R1的推理基准专注于复杂逻辑推理能力,迎合了多步骤解决方案需求日益增长的趋势。
Whisper Large v3模型的语音转文本基准测试,为准确度与速度的平衡提供了全新挑战,为广泛应用于语音助手和实时转录服务的设备优化性能提供了参考。而基于Llama 3.1 8B的小型大语言模型基准,专注于轻量级模型的推理效率,满足低延迟、高效率部署的实际需求。三项基准的引入,不仅丰富了MLPerf推理的生态,更顺应了行业对多样化AI推理场景的迫切诉求。 Nvidia在此次MLPerf推理v5.1中继续领跑,凭借其新一代Blackwell Ultra架构的强大性能亮相。此前于GTC大会宣布的Blackwell Ultra,集成大容量HBM3e显存、提升的NVFP4 AI计算能力和加速的注意力层,使得其系统GB300 NVL72在推理吞吐量上刷新了基于Blackwell架构的前代系统记录。DeepSeek-R1推理性能相比上一代系统提升了45%,GPU单卡每秒离线可处理约5842个Tokens,服务器场景也达到了2907 Tokens,较之前不具备核验的Hopper架构性能实现了近五倍提升。
在Llama 3.1 405B交互式基准中,Nvidia引入了名为"分离服务"的技术,将推理过程中的上下文预加载与生成阶段拆分,让不同GPU专注于不同的任务,从而大幅度提升单卡吞吐率。结合Dynamo推理框架,使得Blackwell架构的推理效率相较传统单卡推理提高了50%,并且性能远超旧款Hopper架构,实现超过5倍的提升。此外,Nvidia在较小规模的Llama 3.1 8B和Whisper模型基准中同样保持领先,单卡离线处理能力分别超过了18000和5667 Tokens每秒,涵盖离线、服务器及交互三大场景,持续保持GPU级别的性能第一。 硬件之外,Nvidia已开始布局下一代推理芯片,计划于2026年底发布代号为Rubin CPX的新产品。Rubin CPX基于继任Blackwell的Rubin架构,专注于视频生成、AI辅助软件开发等高数据量推理任务。其支持多项视频编解码和推理功能集成于一芯片,旨在应对百万级tokens上下文处理需求。
Nvidia明确指出,在推理领域,未来大规模投资能够创造远超百倍的经济产出,彰显了其在AI基础硬件上的前瞻布局。 AMD作为本次版本v5.1中的另一大亮点,扩大了其GPU产品线的影响力。首次提交了最新刚发布九周的Instinct MI355X GPU,在Llama 2-70B测试中采用FP4精度并实现了强劲的多节点扩展性能,单卡性能较之前的MI325X在FP8精度条件下提升了近2.7倍。AMD在オープン(开放)组别提交了Llama 3.1-405B模型的结构化剪枝优化结果,通过有针对性的剪枝与微调技术,在保持模型准确率的同时,最大幅度提升了整体推理吞吐,最高达82%-90%的性能提升。剪枝技术与硬件优化的结合,展现了AMD对效率与性能兼顾的深度探索。 不仅如此,AMD本轮涵盖的新工作负载进一步丰富了公司布局,包括首次对Llama 2-70B Interactive、Mixtral-8x7B混合专家模型、Stable Diffusion XL图像生成模型的提交,展现了其在对话AI、多专家网络和生成视觉任务上的覆盖能力。
此外,AMD还首度公布了融合MI300X和MI325X的多节点集群推理结果,四节点组合实现了3.4倍性能提升,八节点扩展则体现了极佳的可扩展性,契合企业规模化AI部署需求。 惠普企业(HPE)同样扩大了其在MLPerf推理界的版图,以多样的ProLiant和Cray系列系统斩获多个第一名成绩。在数据中心和边缘计算场景广泛展现了行业领先的推理性能。ProLiant DL380a Gen12成为焦点,在推荐系统和Llama 3.1-8B服务器端基准中表现出卓越竞争力。刚刚亮相的DL385 Gen11也表现抢眼,尤其在Whisper基准中配备NVIDIA H200 NVL GPU时,实现了同行中最佳的单卡性能表现。Cray XD670(8×H200)系统囊括了多个第一名,涵盖图像检测、语言模型及混合专家模型等多种任务,展示了HPE集群系统在推理领域的强劲实力。
新基准方面,深具代表性的推理基准基于DeepSeek-R1展开,充分体现逻辑推理型大语言模型的独特需求。DeepSeek-R1参数规模达到6710亿,采用混合专家架构,专注于多步数学、科学、代码生成等领域的复杂推理任务,支持最长达2万tokens的输出,是现有MLPerf套件中最长的输出长度。测试涵盖了复杂数学(AIME、MATH500)、科学知识(GPQA-Diamond、MMLU-Pro)、以及代码生成(LiveCodeBench)等多类开放数据集,评测精准度结合数学答案匹配和代码执行,全面检视模型的推理能力和准确性。性能指标则兼顾吞吐量和严格的延时要求,确保推理模型既快速又符合用于生产环境的响应标准。 再看轻量级大语言模型基准,MLPerf v5.1用Llama 3.1-8B替代了之前的GPT-J 6B模型作为入门级标杆。作为目前广泛采用的轻量Llama系统,8B规模模型不仅具备较低延迟,还适用于长上下文处理(支持最多128000 tokens),尤其适合科研、摘要、对话机器人等场景。
该基准测试采用CNN-DailyMail数据集,平均输入近778 tokens,输出约73 tokens。通过ROUGE分数衡量准确度。推理性能从延时先发令牌(TTFT)和后续单词输出时间(TPOT)两个维度评估,覆盖离线、服务器和交互式情况下的性能。交互模式采用更严格的延时要求,满足现代对话和交互应用的快速响应需求。 值得注意的是,本次MLPerf v5.1迎来了首批高校和个人贡献者参与,进一步多元化了推理生态。佛罗里达大学凭借其搭载NVIDIA DGX B200 SuperPOD的HiPerGator超级计算平台递交了闭源合规结果,证明了学术机构具备高水平、可重复的AI推理能力。
大学采用容器化、SLURM调度和实际多用户高性能计算环境,显示出学术界的运营环境可以融入工业标准测试流程。该架构的参与为高校及公共研究机构搭建了切实可行的AI推理性能验证路径。 另一边,来自加州大学圣地亚哥分校的博士生Amitash Nanda成为首位个人提交者,其利用Apple MacBook Pro搭载M1 Pro芯片,借助ONNX Runtime与Apple CoreML推理框架在集成GPU及神经引擎上进行边缘级离线基准测试,结果达到并超越设定的精度要求,彰显了消费级硬件在轻量推理领域的潜力。这种"轻量化"推理证明了非数据中心级别设备亦可参与AI性能衡量,开放了AI性能评测的新可能性。 NVIDIA、AMD、HPE等巨头厂商通过本轮MLPerf结果不仅展现了各自产品的性能优势,也反映出厂商对推理性能和效率的持续深耕。各种新技术、新硬件纷纷落地,从分离推理服务到多精度剪枝,从异构多节点集群到边缘部署优化,都指向构建高效、灵活的AI推理基础设施。
与此同时,包括Broadcom、Dell、Cisco、CoreWeave、Lambda、Lenovo、MangoBoost、MiTAC、Oracle、Quanta Cloud Technology、Supermicro等多家企业纷纷亮相,体现了行业配合标准加速AI推理落地的共同努力。 总结而言,MLPerf推理v5.1凭借三项创新基准的加入、历史最高的参与度及多元化测试场景,标志着AI推理性能测评迈向全新阶段。推理模型的速度与效率持续刷新,推动企业和研究机构更加科学合理地选型与部署AI基础设施。面向未来,随着硬件架构和软件栈不断革新,推理性能仍将成为AI应用成败的关键因素。MLPerf作为行业权威的性能评价标杆,将继续引领AI推理领域的技术发展和应用实践,助力AI迈向更广阔、智能的未来。 。