去中心化金融 (DeFi) 新闻

MLPerf推理v5.1发布:新基准引领AI推理速度革命,参与者创历史新高

去中心化金融 (DeFi) 新闻
MLPerf推理v5.1版本发布,带来包括深度推理能力和多样任务的三项全新基准测试,推动AI推理性能再创新高。NVIDIA、AMD及HPE等多家领军企业纷纷亮相,展示前沿硬件突破和优化算法,助力AI应用广泛落地。此次大规模参与彰显行业对标准化性能评测的共同认可,对推动AI基础设施升级意义深远。

MLPerf推理v5.1版本发布,带来包括深度推理能力和多样任务的三项全新基准测试,推动AI推理性能再创新高。NVIDIA、AMD及HPE等多家领军企业纷纷亮相,展示前沿硬件突破和优化算法,助力AI应用广泛落地。此次大规模参与彰显行业对标准化性能评测的共同认可,对推动AI基础设施升级意义深远。

在人工智能飞速发展的背景下,AI模型的推理性能成为衡量系统性能和实际应用效果的重要指标。MLCommons组织发布的MLPerf推理基准测试,一直以来都是衡量AI推理性能的权威标准。2025年9月,MLPerf发布了最新的推理套件版本v5.1,本轮测试中,不仅参与者数量达到历史最高的27家,更引入了三项全新基准测试,涵盖推理模型的不同应用场景,进一步丰富了推理性能的评测维度。此次发布无疑展示了AI推理技术的快速迭代和市场的巨大活力。 新基准的加入极大地拓宽了MLPerf的测试范围。基于DeepSeek-R1的推理基准专注于复杂逻辑推理能力,迎合了多步骤解决方案需求日益增长的趋势。

Whisper Large v3模型的语音转文本基准测试,为准确度与速度的平衡提供了全新挑战,为广泛应用于语音助手和实时转录服务的设备优化性能提供了参考。而基于Llama 3.1 8B的小型大语言模型基准,专注于轻量级模型的推理效率,满足低延迟、高效率部署的实际需求。三项基准的引入,不仅丰富了MLPerf推理的生态,更顺应了行业对多样化AI推理场景的迫切诉求。 Nvidia在此次MLPerf推理v5.1中继续领跑,凭借其新一代Blackwell Ultra架构的强大性能亮相。此前于GTC大会宣布的Blackwell Ultra,集成大容量HBM3e显存、提升的NVFP4 AI计算能力和加速的注意力层,使得其系统GB300 NVL72在推理吞吐量上刷新了基于Blackwell架构的前代系统记录。DeepSeek-R1推理性能相比上一代系统提升了45%,GPU单卡每秒离线可处理约5842个Tokens,服务器场景也达到了2907 Tokens,较之前不具备核验的Hopper架构性能实现了近五倍提升。

在Llama 3.1 405B交互式基准中,Nvidia引入了名为"分离服务"的技术,将推理过程中的上下文预加载与生成阶段拆分,让不同GPU专注于不同的任务,从而大幅度提升单卡吞吐率。结合Dynamo推理框架,使得Blackwell架构的推理效率相较传统单卡推理提高了50%,并且性能远超旧款Hopper架构,实现超过5倍的提升。此外,Nvidia在较小规模的Llama 3.1 8B和Whisper模型基准中同样保持领先,单卡离线处理能力分别超过了18000和5667 Tokens每秒,涵盖离线、服务器及交互三大场景,持续保持GPU级别的性能第一。 硬件之外,Nvidia已开始布局下一代推理芯片,计划于2026年底发布代号为Rubin CPX的新产品。Rubin CPX基于继任Blackwell的Rubin架构,专注于视频生成、AI辅助软件开发等高数据量推理任务。其支持多项视频编解码和推理功能集成于一芯片,旨在应对百万级tokens上下文处理需求。

Nvidia明确指出,在推理领域,未来大规模投资能够创造远超百倍的经济产出,彰显了其在AI基础硬件上的前瞻布局。 AMD作为本次版本v5.1中的另一大亮点,扩大了其GPU产品线的影响力。首次提交了最新刚发布九周的Instinct MI355X GPU,在Llama 2-70B测试中采用FP4精度并实现了强劲的多节点扩展性能,单卡性能较之前的MI325X在FP8精度条件下提升了近2.7倍。AMD在オープン(开放)组别提交了Llama 3.1-405B模型的结构化剪枝优化结果,通过有针对性的剪枝与微调技术,在保持模型准确率的同时,最大幅度提升了整体推理吞吐,最高达82%-90%的性能提升。剪枝技术与硬件优化的结合,展现了AMD对效率与性能兼顾的深度探索。 不仅如此,AMD本轮涵盖的新工作负载进一步丰富了公司布局,包括首次对Llama 2-70B Interactive、Mixtral-8x7B混合专家模型、Stable Diffusion XL图像生成模型的提交,展现了其在对话AI、多专家网络和生成视觉任务上的覆盖能力。

此外,AMD还首度公布了融合MI300X和MI325X的多节点集群推理结果,四节点组合实现了3.4倍性能提升,八节点扩展则体现了极佳的可扩展性,契合企业规模化AI部署需求。 惠普企业(HPE)同样扩大了其在MLPerf推理界的版图,以多样的ProLiant和Cray系列系统斩获多个第一名成绩。在数据中心和边缘计算场景广泛展现了行业领先的推理性能。ProLiant DL380a Gen12成为焦点,在推荐系统和Llama 3.1-8B服务器端基准中表现出卓越竞争力。刚刚亮相的DL385 Gen11也表现抢眼,尤其在Whisper基准中配备NVIDIA H200 NVL GPU时,实现了同行中最佳的单卡性能表现。Cray XD670(8×H200)系统囊括了多个第一名,涵盖图像检测、语言模型及混合专家模型等多种任务,展示了HPE集群系统在推理领域的强劲实力。

新基准方面,深具代表性的推理基准基于DeepSeek-R1展开,充分体现逻辑推理型大语言模型的独特需求。DeepSeek-R1参数规模达到6710亿,采用混合专家架构,专注于多步数学、科学、代码生成等领域的复杂推理任务,支持最长达2万tokens的输出,是现有MLPerf套件中最长的输出长度。测试涵盖了复杂数学(AIME、MATH500)、科学知识(GPQA-Diamond、MMLU-Pro)、以及代码生成(LiveCodeBench)等多类开放数据集,评测精准度结合数学答案匹配和代码执行,全面检视模型的推理能力和准确性。性能指标则兼顾吞吐量和严格的延时要求,确保推理模型既快速又符合用于生产环境的响应标准。 再看轻量级大语言模型基准,MLPerf v5.1用Llama 3.1-8B替代了之前的GPT-J 6B模型作为入门级标杆。作为目前广泛采用的轻量Llama系统,8B规模模型不仅具备较低延迟,还适用于长上下文处理(支持最多128000 tokens),尤其适合科研、摘要、对话机器人等场景。

该基准测试采用CNN-DailyMail数据集,平均输入近778 tokens,输出约73 tokens。通过ROUGE分数衡量准确度。推理性能从延时先发令牌(TTFT)和后续单词输出时间(TPOT)两个维度评估,覆盖离线、服务器和交互式情况下的性能。交互模式采用更严格的延时要求,满足现代对话和交互应用的快速响应需求。 值得注意的是,本次MLPerf v5.1迎来了首批高校和个人贡献者参与,进一步多元化了推理生态。佛罗里达大学凭借其搭载NVIDIA DGX B200 SuperPOD的HiPerGator超级计算平台递交了闭源合规结果,证明了学术机构具备高水平、可重复的AI推理能力。

大学采用容器化、SLURM调度和实际多用户高性能计算环境,显示出学术界的运营环境可以融入工业标准测试流程。该架构的参与为高校及公共研究机构搭建了切实可行的AI推理性能验证路径。 另一边,来自加州大学圣地亚哥分校的博士生Amitash Nanda成为首位个人提交者,其利用Apple MacBook Pro搭载M1 Pro芯片,借助ONNX Runtime与Apple CoreML推理框架在集成GPU及神经引擎上进行边缘级离线基准测试,结果达到并超越设定的精度要求,彰显了消费级硬件在轻量推理领域的潜力。这种"轻量化"推理证明了非数据中心级别设备亦可参与AI性能衡量,开放了AI性能评测的新可能性。 NVIDIA、AMD、HPE等巨头厂商通过本轮MLPerf结果不仅展现了各自产品的性能优势,也反映出厂商对推理性能和效率的持续深耕。各种新技术、新硬件纷纷落地,从分离推理服务到多精度剪枝,从异构多节点集群到边缘部署优化,都指向构建高效、灵活的AI推理基础设施。

与此同时,包括Broadcom、Dell、Cisco、CoreWeave、Lambda、Lenovo、MangoBoost、MiTAC、Oracle、Quanta Cloud Technology、Supermicro等多家企业纷纷亮相,体现了行业配合标准加速AI推理落地的共同努力。 总结而言,MLPerf推理v5.1凭借三项创新基准的加入、历史最高的参与度及多元化测试场景,标志着AI推理性能测评迈向全新阶段。推理模型的速度与效率持续刷新,推动企业和研究机构更加科学合理地选型与部署AI基础设施。面向未来,随着硬件架构和软件栈不断革新,推理性能仍将成为AI应用成败的关键因素。MLPerf作为行业权威的性能评价标杆,将继续引领AI推理领域的技术发展和应用实践,助力AI迈向更广阔、智能的未来。 。

飞 加密货币交易所的自动交易 以最优惠的价格买卖您的加密货币

下一步
Ariadne为开发者提供了一种便捷高效的隧道服务,通过GitHub Actions的免费资源实现多平台多隧道类型的快速配置和部署,助力应用程序轻松实现公开访问和远程调试。本文详细阐述了Ariadne的工作原理、支持的隧道种类、跨平台特性及使用技巧,帮助开发者无障碍开启远程隧道服务的新时代。
2025年12月30号 15点58分13秒 深入探索Ariadne:GitHub Runners的免费隧道解决方案全解析

Ariadne为开发者提供了一种便捷高效的隧道服务,通过GitHub Actions的免费资源实现多平台多隧道类型的快速配置和部署,助力应用程序轻松实现公开访问和远程调试。本文详细阐述了Ariadne的工作原理、支持的隧道种类、跨平台特性及使用技巧,帮助开发者无障碍开启远程隧道服务的新时代。

随着稳定币市场的蓬勃发展,华尔街正掀起一场人才争夺大战。越来越多金融机构和初创企业纷纷加大招募力度,导致相关岗位薪酬大幅上升。本文深入探讨稳定币技术的发展背景、人才需求的激增及其对薪酬结构的深远影响。
2025年12月30号 15点59分14秒 华尔街稳定币人才争夺战引发薪酬飙升潮

随着稳定币市场的蓬勃发展,华尔街正掀起一场人才争夺大战。越来越多金融机构和初创企业纷纷加大招募力度,导致相关岗位薪酬大幅上升。本文深入探讨稳定币技术的发展背景、人才需求的激增及其对薪酬结构的深远影响。

探索如何利用算法技术自动生成高质量的网站横幅,提升设计效率,优化用户体验,并在竞争激烈的网络环境中脱颖而出。文章深入剖析算法生成横幅的核心原理、应用案例与未来趋势。
2025年12月30号 15点59分42秒 算法生成网站横幅的创新方法与实践解析

探索如何利用算法技术自动生成高质量的网站横幅,提升设计效率,优化用户体验,并在竞争激烈的网络环境中脱颖而出。文章深入剖析算法生成横幅的核心原理、应用案例与未来趋势。

详细解析Capital One针对联邦存款保险公司(FDIC)因两银行倒闭事件收取超额特别评估费用的诉讼,梳理案件背景、争议焦点及潜在影响。
2025年12月30号 16点08分03秒 Capital One起诉FDIC:针对硅谷银行与Signature银行倒闭事件的超额收费争议解析

详细解析Capital One针对联邦存款保险公司(FDIC)因两银行倒闭事件收取超额特别评估费用的诉讼,梳理案件背景、争议焦点及潜在影响。

本文深入探讨了HyperLiquid生态系统中基于Kinetiq协议的激励机制,揭示了为何大量投资者涌入该平台进行质押以争夺Kinetiq的空投奖励,同时分析了该现象背后的市场机制及未来发展潜力。
2025年12月30号 16点10分17秒 揭秘HyperLiquid质押生态系统:Kinetiq空投引发的收益猎人狂潮

本文深入探讨了HyperLiquid生态系统中基于Kinetiq协议的激励机制,揭示了为何大量投资者涌入该平台进行质押以争夺Kinetiq的空投奖励,同时分析了该现象背后的市场机制及未来发展潜力。

SharpLink Gaming联合CEO Joseph Chalom对加密货币市场的影响进行了前瞻性解读,强调SharpLink的以太坊战略不仅不会带来市场黑天鹅风险,反而有望加速机构和非加密企业对以太坊的采纳,推动稳定币和代币化资产的主流化发展。
2025年12月30号 16点11分29秒 SharpLink财库推动将成为以太坊采纳的"白天鹅事件",CEO深度解析

SharpLink Gaming联合CEO Joseph Chalom对加密货币市场的影响进行了前瞻性解读,强调SharpLink的以太坊战略不仅不会带来市场黑天鹅风险,反而有望加速机构和非加密企业对以太坊的采纳,推动稳定币和代币化资产的主流化发展。

深入解析美联储降息对股票市场的影响,揭示为何尽管降息通常被视为利好因素,股市依然可能面临下跌压力,帮助投资者更全面理解市场动态与潜在风险。
2025年12月30号 16点13分50秒 股票为何青睐美联储降息,却仍有下跌风险?

深入解析美联储降息对股票市场的影响,揭示为何尽管降息通常被视为利好因素,股市依然可能面临下跌压力,帮助投资者更全面理解市场动态与潜在风险。