随着人工智能技术的迅速发展,大规模语言模型已成为推动自然语言处理和生成领域进步的核心力量。华为近日发布了其基于Ascend系列GPU训练的开放权重模型——Pangu Pro MoE,凭借其独特的Mixture of Grouped Experts(MoGE)架构,在保持庞大参数规模的同时,极大优化了模型的执行效率和计算资源分配,成为当前AI界备受关注的创新成果。华为Ascend GPU凭借其强大的算力和系统级协同设计,为Pangu Pro MoE的高效训练和推理提供了坚实保障,也标志着国产AI硬件与算法深度结合迈入新阶段。作为继承了混合专家模型(Mixture of Experts,MoE)思想的升级版本,MoGE通过将专家分组管理,解决了传统MoE中部分专家被过载调用导致资源利用不均衡的问题。不同的专家分组实现了对输入令牌的均匀分配,进而确保多设备并行计算时负载的平衡,大幅提升了系统的整体吞吐量。华为对该架构进行了多轮系统仿真和调优,尤其针对Ascend 300I Duo及800I A2硬件平台进行了适配,确保模型训练与实时推理阶段均能发挥优异性能。
Pangu Pro MoE拥有72亿个参数,但每个输入令牌仅激活其中的16亿参数,采用稀疏计算策略,显著降低了运算开销。华为团队通过多方面优化,使推理性能达到单卡1148个令牌每秒,借助推测加速技术更提升至1528个令牌每秒,远超相当规模的32亿及72亿稠密模型水平。这不仅在性能上实现突破,更带来了较为优秀的性价比,尤其在Ascend 300I Duo平台上表现尤为突出。此次开源的Pangu Pro MoE模型不仅技术领先,还充分考虑了产业应用的普及与生态构建。基于该模型,开发者和企业可以更便捷地部署和调优自适应的语言理解与生成模块,涵盖智能客服、内容创作、知识问答等多样场景。此举也反映了华为在推动开放合作和赋能生态方面的积极姿态,助力国产AI技术实现平稳跨越和全球竞争力提升。
华为Ascend系列GPU作为业界首屈一指的AI计算硬件,以其定制化架构和深度优化的算子库,为Pangu Pro MoE训练带来了多倍提速。实现了大规模并行处理能力,支持大模型在单机多卡,乃至大规模分布式环境下的高效计算,充分挖掘硬件潜力。厂商对Ascend计算资源的精准调度与调优,使得模型能够最大程度减少计算瓶颈和内存压力,保障训练流程的流畅性和稳定性。相比国际开源模型如GLM-Z1-32B、Qwen3-32B,Pangu Pro MoE在相似或更低参数规模条件下展现出更强的推理性能与成本效率,成为引领国产语言模型新风向的代表性作品。此外,Pangu Pro MoE围绕系统软硬件资源的协同设计,为模型未来升级预留了充分空间。MoGE架构的可扩展性及其在负载均衡上的优势,为实现更大参数量模型和更复杂任务提供了良好基础。
华为也计划继续进一步优化训练框架和推理引擎,持续降低模型应用门槛,助力更多企业及科研机构搭建高效智能系统。面对当前AI模型训练资源消耗巨大、推理延迟难题突出等业界痛点,华为此次基于Ascend平台推出的开源模型无疑摁下了一颗加速键。它不仅推动了国产AI基础设施的全面升级,也为人工智能与实际业务需求的深度融合打造坚实底座。长远来看,Pangu Pro MoE以其技术创新与生态开放,有望催生更多智能应用落地,助推数字经济及智能制造等重点领域实现质的飞跃。总之,华为新发布的基于Ascend GPU训练的开源模型,凭借先进的MoGE架构设计和出色的系统协同能力,展现了国产大规模语言模型建设的崭新高度。其均衡的专家负载策略、高效的稀疏激活机制以及硬件适配优化,不仅显著提升了训练和推理性能,更为整个AI领域带来了可复制、可扩展的技术范式。
随着该模型被广泛应用和持续迭代,华为Ascend计算生态必将迎来更加辉煌的明天,助力中国人工智能技术迈向世界前沿。