作为中国人工智能领域的重要一员,华为诺亚方舟实验室的盘古大模型项目曾一度被视为国产大型语言模型的代表,肩负着国产AI崛起的重任。然而,近日一位内部工作人员的爆料揭示了这背后鲜为人知的辛酸与挣扎,让公众看到了远比技术报告和新闻发布更为复杂的故事。盘古大模型研发过程中隐藏的内部矛盾、技术瓶颈、资源不足以及管理混乱,深刻折射出当前中国AI产业发展中存在的痛点与弊端。本文将以第一手内部视角,全面还原盘古研发历程中的甘苦,洞察华为在AI大模型路径上所遇到的挑战与转机。 盘古项目起初贯彻“研发为核心”的理想主义理念,吸引了众多技术骨干投入其中。但随着项目规模扩大和业务压力加剧,研发团队的性质逐渐转向“交付导向”。
长期的高强度工作导致团队成员身心俱疲,尤其是在苏州集中办公数周甚至数月,远离家庭,日常只能换取为数不多的娱乐活动为慰藉。原本期待的创新研究变成了层层报表、会议和应付测试的数据驱动工作,极大地挫伤了团队的创造力和士气。 技术路线上,盘古团队以Ascend芯片为主要算力支撑,期望打造具备自主知识产权和竞争力的国产大模型。然而算力受限成为最大瓶颈。早期利用910A芯片进行训练,支持的数值格式只有fp16,训练稳定性远不及主流的bf16。此外,早期模型使用的分词器效率极低,导致计算资源被大量浪费,模型表现不尽人意。
团队尝试替换词汇表,经过反复调试和万亿级别数据训练,仍难以突破技术瓶颈。与此同时,阿里巴巴和知谱等国内竞争对手开始利用NVIDIA GPU加速训练,技术进步迅速,盘古与行业领先水平的差距不断拉大。 盘古团队在尝试不同模型架构的过程中也遭遇挫折。最初研发的多专家模型(moe)因架构老旧和计算资源限制而效果未达预期,不得不退回到较小的13B稠密模型,并通过引入新位置编码与归一化手段来提升表现。第二代38B模型一度表现较好,成为主要推广版本,但更大规模的135B模型由于词汇表替换导致诸多bug,效果一直不尽如人意,团队压力空前。 到2023年,团队内部再次受到沉重打击。
小模型实验室的领导班子采取了继续训练并包装内部竞品模型的做法,将阿里巴巴Qwen1.5 110B模型进行改造扩展为135B V2版本,对外公布时宣称为自主研发成果。实际上,这一行为涉及伪造模型训练历史,甚至未更改原始模型代码中的关键标识。该事件被部分内部员工视为商业欺诈,严重打击了深度投入研发的科研人员的信心。更令人遗憾的是,高层领导知情未予制止,反映出公司内部存在的利益链和权力斗争。 在巨大压力与路径迷茫中,仍有部分研发人员坚持从零开始,专注票据透明、质量保障和底层算法创新。经过数月的细致打磨和反复调试,第三代38B V3模型脱颖而出,成为团队真正意义上的第一代从头训练的大规模模型。
该版本采用了更先进的分词器,基于主流的LLaMA词汇结构改良,技术水准与国内主要竞争对手看齐,极大提振了研发团队士气。 但团队之间“大模型”与“小模型”实验室的裂痕越发明显。小模型实验室在项目过程中数据和代码直接侵占大模型组的成果,导致后者努力付出换来的是他人的荣耀。网络上甚至流传“鼠标实验室”的讥讽称谓,形象反映出内部资源分配和权力掠夺的复杂局面。多名核心骨干在良心与现实压力之间艰难挣扎,纷纷选择离职,加入字节跳动、腾讯、快手等竞争对手阵营,引发了华为AI人才流失的严重警示。 在多专家模型领域,盘古团队曾尝试训练224B参数的MoE模型,但小模型实验室随即发动第二轮“套壳”行动,利用自有7B基础模型进行参数继续训练后发布所谓72B版本,这一行为引发了内外部质疑。
更为严重的是,在718B参数规模的超大模型训练中,小模型实验室直接套用了Deepseek V3版本模型权重进行训练,甚至未更改加载路径与命名,体现出极度傲慢与技术诚信缺失。面对这样的内部乱像,有技术正直的员工仍坚持从头训练,但资源极度受限,难以与“套壳”派抗衡。管理流程的繁琐与严格明显拖慢了全团队的研发效率,而小模型实验室因其“灵活操作”反而抢占了市场的先机。 这一切痛苦的背后,是华为内部强烈的组织管理矛盾和技术路线分歧。传统的官僚作风占据上风,诸多流程和审批机制束缚了团队的敏捷性和创新能力。以严格的版本管理、模型溯源制度限制真实研发自由,而小模型实验室则因身份特殊获得绕过流程的“特权”,可自由调配算力、开展“套壳”行为。
如此“只许州官放火,不许百姓点灯”的局面,令大量高技术人才失望离场,也在业界产生极大负面影响。 面对这样的境遇,有员工选择勇敢发声,披露真相,不惜冒着职业风险、乃至人身安全威胁,用笔者的语言述说自己对华为和盘古的爱恨交织。内心的痛苦、怀疑甚至自我否定,是背负巨大理想却被现实碾压的真实写照。笔者坦承过去的无力与妥协,同时也坚信只有彻底面对问题,汲取教训,华为才能重新赢得人才、重塑品牌,实现国产大模型的振兴。 展望未来,华为盘古能否摆脱内耗,建立真正开放透明的技术文化和公正合理的激励机制,是关乎中国智能计算能否崛起的关键所在。作为一家具有技术积淀和资本实力的企业,华为拥有驾驭Ascend算力的潜力,也有基础打造具备竞争力的本土大规模生成模型。
然而唯有正视人才流失、流程僵化和诚信缺失,才能真正迎来技术创新和产业繁荣。 盘古大模型的研发历程是充满坎坷的时代缩影,既有技术革新带来的欣喜,也有权力斗争、利益驱动下的骨感现实。只有坚持以技术和人才为核心,减少不健康的内部斗争,华为才能在未来的人工智能竞赛中掌握主动权。更广泛地说,国产AI发展亦需建立开放竞争、公平认可的生态,方能创造可持续成长的良性循环。在全球AI技术快速迭代的背景下,中国企业迎来前所未有的机遇与挑战,盘古的悲喜故事正是其中一面真实的镜子。 生命不息,奋斗不止。
华为以及国内AI团队的技术梦想仍未熄灭,盘古大模型的未来依然值得期待。愿行业各方吸取教训,重回技术研发初心,协力打造自主可控且具国际竞争力的人工智能产品,为中国乃至全球智能化转型贡献力量。