加密初创公司与风险投资

深度探索:在GB200 NVL72上利用PD和大规模专家并行实现DeepSeek解码吞吐量提升2.7倍的突破

加密初创公司与风险投资
Deploying DeepSeek on GB200 NVL72 with PD and Large Scale EP: 2.7x Throughput

本文深入解析了如何在全球领先的GB200 NVL72硬件平台上,结合预填充解码分离(PD)及大规模专家并行(EP)技术,成功实现DeepSeek模型的高效部署与性能飞跃。文章详细介绍了系统架构优化、关键技术创新以及实际测试结果,揭示了GB200 NVL72在AI推理领域的性能优势和未来潜力。

随着人工智能技术的高速发展,复杂模型的训练和推理性能成为衡量硬件平台竞争力的重要指标。GB200 NVL72作为目前最先进的AI训练与推理设备,其卓越的计算能力和内存带宽引起了业界的高度关注。本文聚焦于DeepSeek 671B模型在该平台上采用预填充-解码(PD)分离设计和大规模专家并行(EP)策略,展现了2.7倍的解码吞吐量提升,解析了背后的核心技术与优化思路,展望了未来人工智能系统的发展方向。深度学习模型在大规模部署时,常常面对计算瓶颈与通信开销的双重挑战。GB200 NVL72凭借其卓越的FP8精度优化矩阵乘法库Blackwell DeepGEMM,突破了传统计算限制。该库专为Blackwell架构设计,利用全新的矩阵乘法单元(UMMA)特性,实现了计算效率的显著提升。

更重要的是,GB200 NVL72配备的大容量内存使得KV缓存得以扩展,支持更大的批处理规模,进而促进模型推理过程中的矩阵运算效率,形成了硬件优势与算法优化的强强联合。在通信子系统方面,GB200 NVL72创新地采用了纯NVLink架构替代传统的远程直接内存访问(RDMA),最低限度地减少了跨节点通信延迟。Blackwell DeepEP通信库借助映射远程GPU内存到本地虚拟地址空间的设计,实现了令牌在Mixture of Experts(MoE)架构中专家间高效传递。相比H100平台,NVLink环境下通信与计算的协调更加紧密,极大地缩短了整体推理时间。这种高效的通信机制使得深度学习模型尤其是在涉及大规模专家并行策略时,能够充分发挥硬件性能潜力。大规模专家并行是深度模型扩展的关键技术之一。

传统模型拓展中,专家路由机制容易带来内存访问压力和通信开销。GB200 NVL72结合SGLang框架中的PD分离设计,灵活拆分预填充和解码阶段,提升资源利用效率。在此基础上,大规模EP技术优化了MoE专家之间的协同计算,缓解了内存带宽瓶颈,进而保证了任务负载的均匀分布和计算效率的最优化。这不仅提升了模型推理速度,还为未来更大规模专家网络的部署奠定了基础。深度学习核心运算之多头注意力机制(Multi-Head Attention, MHA)在模型预填充阶段占据了重要位置。GB200 NVL72针对FlashInfer框架,重写并优化了Fused Multi-Head Attention(FMHA)内核,从而适应Blackwell架构和FP8计算生态。

与此同时,Blackwell CUTLASS MLA内核的应用,使得针对键-值缓存的访问更为高效,减少了L2缓存访问次数,降低了延迟。这些底层内核优化协同作用,为DeepSeek模型解码和预填充阶段提供了强劲计算支撑。实验结果验证了上述设计优势。在使用14节点GB200 NVL72集群的设置中,分配12节点用于解码,2节点专门进行预填充,模拟了现实应用场景。测试显示,GB200 NVL72在2000-token输入长度下实现每GPU解码速率高达7583 tokens/秒,较H100平台提升了2.7倍以上。性能提升范围在2.5至3.4倍之间,取决于序列长度及批处理大小。

不同规模的批处理实验进一步证明,较大的批处理规模能够有效提升计算吞吐,同时即使在相同批大小下,GB200 NVL72的表现远超H100,突显平台在算力和内存带宽上的综合优势。批处理大小的影响在深度学习模型部署中尤为关键。GB200 NVL72因其大容量内存,支持更大的批量输入,促使模型解码内核饱和进而实现更高效率。尽管当前为初步版本,尚未针对小批量情况进行优化,但硬件本身在多场景适应性方面展现出巨大潜力。未来通过进一步的算法改进和调优,预计将覆盖更多应用场景,实现更灵活的部署策略。展望未来,研究团队计划在多个方向进行深入探索。

首先是对预填充阶段性能的提升,将通过优化内核融合和数据传输路径,降低整体延迟。其次,通信机制方面,将尝试更高级的计算与通信重叠技术,以最大限度挖掘并行潜力,进一步缩短推理总时长。另外,多标记预测(MTP)技术在小批量场景中将成为重点研究对象,提升模型在低延迟需求下的表现。硬件层面,GB200 NVL72丰富的指令级优化空间尚未完全开放,未来内核进一步饱和内存带宽和计算资源,将推动AI整体性能的持续飞跃。此次成果得益于NVIDIA硬件团队、SGLang核心开发组以及Mooncake团队的紧密协作。他们在Blackwell架构上展开全方位的内核优化,包括FP8矩阵乘法、专家通信调度、注意力机制融合等核心模块,为DeepSeek模型能够充分发挥GB200 NVL72的硬件优势提供了强有力的技术保障。

与此同时,持续的社区贡献和跨部门协作,确保了技术方案在实际环境中的稳定性与高效性。GB200 NVL72的出现不仅推动了当前深度学习模型的加速,也为下一代大规模AI系统构建提供了坚实基础。结合PD和大规模专家并行技术,DeepSeek的成功部署彰显了软硬件协同优化的巨大价值。这不仅提升了模型推理的效率,更为AI应用创新注入了强大动力。未来,随着硬件架构不断迭代升级、算法调优持续深入,AI推理性能有望实现新一轮质的飞跃,推动智慧计算更广泛的落地应用。整体而言,GB200 NVL72与DeepSeek结合的成功案例,表现出了显著的性能提升和优化空间。

通过优化矩阵乘法库Blackwell DeepGEMM、改进通信库Blackwell DeepEP、重写注意力机制内核FlashInfer Blackwell FMHA和CUTLASS MLA内核,再加上GPU间高效传输引擎Blackwell Mooncake,有效释放了硬件潜能,显著提升了解码吞吐量。未来进一步的工作将围绕减少延迟、拓展硬件适用范围及提高多样化任务支持能力展开,助力打造更强大、更高效的AI推理平台。

加密货币交易所的自动交易 以最优惠的价格买卖您的加密货币 Privatejetfinder.com

下一步
 X Suspends Dozens of Memecoin Accounts, Including Pumpfun’s
2025年09月07号 23点19分08秒 X平台大规模封禁数十个山寨币账号,知名项目Pumpfun亦遭波及

社交平台X大面积封禁与山寨币相关的账户,包含知名的Pumpfun账号,此举引发行业广泛关注与猜测。深入分析事件背景、原因及行业影响,解读最新平台政策变动对山寨币生态的深远影响。

Digital Asset Funds See $1.9 Billion Weekly Inflows as BlackRock Buys 10,290 BTC and Fidelity Acquires 786 BTC
2025年09月07号 23点19分58秒 数字资产基金迎来19亿美元周度资金流入,黑石和富达持续大手笔买入比特币

数字资产投资产品持续呈现强劲增长势头,黑石集团和富达投资近期大规模买入比特币,推动市场活跃度再创新高,行业资金流入创下新纪录,展现出机构投资者对加密资产的深度信心和长远布局。

Nasdaq-Listed Davis Commodities Launches $30 Million Initiative Including $12 Million Bitcoin Purchase and Agricultural Assets Tokenization
2025年09月07号 23点20分54秒 纳斯达克上市公司Davis Commodities启动3000万美元战略计划,布局比特币与农业资产代币化

新加坡农业商品交易公司Davis Commodities宣布启动一项价值3000万美元的战略计划,计划投资1200万美元购买比特币,并推动农业资产的区块链代币化,力图通过数字资产与传统行业的结合,引领全球商品交易新风潮。

Retail Sales Fell More Than Expected in May
2025年09月07号 23点21分51秒 五月零售销售额大幅下滑,消费市场面临新挑战

五月份零售销售额下降幅度超出预期,对消费市场和经济复苏带来一定冲击。本文深入分析零售销售下滑的原因及其对未来经济的影响,探讨应对之策。

ESG Roundup: Market Talk
2025年09月07号 23点22分36秒 深入解析ESG趋势与市场动态的全面洞察

探讨环境、社会及公司治理(ESG)在当前市场中的重要影响力,分析其最新趋势及未来发展方向,为投资者及行业从业者提供实用见解和策略建议。

EU Proposes Ban on Russian Oil, Gas Imports by End 2027
2025年09月07号 23点23分18秒 欧盟计划于2027年底禁止进口俄罗斯石油与天然气,能源格局将迎来深刻变革

欧盟提出将在2027年底前全面禁止进口俄罗斯石油和天然气,以实现能源安全和气候目标。本文深入分析该政策的背景、影响及未来能源布局趋势。

Yates to provide preconstruction services for T1’s Texas solar cell facility
2025年09月07号 23点24分34秒 叶茨携手T1能源 助力德州5GW太阳能电池厂前期建设 全力推动美国绿色能源产业发展

随着全球能源转型步伐加快,太阳能作为清洁可再生能源的重要组成部分,受到广泛重视。T1能源在德州投资建设的5GW太阳能电池厂项目,不仅吸引了众多合作伙伴参与,也标志着美国本土太阳能产业链迈入新阶段。叶茨建设公司受聘提供前期建设服务,助推项目顺利推进,促使德州经济和能源产业焕发新活力。本文深入解析该项目的背景、意义及未来发展潜力。