随着人工智能技术的飞速发展,大语言模型(LLM)已成为推动自然语言处理和智能应用革新的核心力量。近期,瑞士联邦理工学院在全球计算能力最强大的Alps超级计算机上训练出一对“完全开放”的大语言模型,引发了业界的广泛关注。该项目不仅凸显了欧洲在超级计算与AI融合领域的领先布局,更在开放数据、开源代码和模型透明度方面树立了新的行业标杆。 Alps超级计算机是欧洲目前排名第三、全球第八的高性能计算系统,采用了最新的Nvidia Grace-Hopper GH200 Superchips架构,集成了72核基于Arm Neoverse V2的定制CPU与96GB H100 GPU,性能强大且针对AI训练进行了深度优化。HPE的Cray部门制造的该系统拥有2688个计算单元,整体算力达到42 exaFLOPS的FP8稀疏计算性能,充分满足大规模神经网络训练的严苛需求。 ETH苏黎世和洛桑联邦的研究人员利用这套超级计算资源,训练了参数规模分别为80亿和700亿的两款大语言模型。
这些模型基于超过15万亿个训练数据令牌,覆盖超过1000种语言,且训练数据中40%的内容是非英语语言,体现了对多语言多文化处理能力的重视。如此庞大且多样化的数据支持令模型具备较强的泛化效能和跨语言理解能力。 令人瞩目的是,研究团队承诺模型及其权重的完全开放,且不仅仅局限于模型本身的发布。源码和详细的训练流程、算法设计也将面向公众,并且训练数据的透明性和可复制性将受到保障。在当前许多商业大模型开发者闭门造车、模型训练过程不透明的背景下,ETH和EPFL的做法极具开创意义,有望激发更多跨国学术与产业合作,加速人工智能领域的创新与信任建设。 瑞士国家超级计算中心负责人托马斯·舒尔特斯指出,没有对Alps超级计算机的战略性投资,此次训练无法实现。
正是得益于其针对AI优化的硬件设计与高效的内部网络结构,项目得以完成超大规模多语言LLM的高效训练。GPU的FP8低精度运算模式不仅极大提升了计算速度,还能保持模型在精度和性能上的平衡,为未来AI模型的训练提供了新的范式。 此外,研究团队强调在训练过程中严格尊重网络爬取的限制政策,即使未绕过网站的访问保护措施,也未对模型性能产生明显影响。这一点凸显了他们在数据伦理和法律合规方面的重视,为全球AI开发树立负责任的典范。 预计这对开放大语言模型将于2025年夏季正式对外发布,授权采用宽松且企业友好的Apache 2.0协议。这样不仅确保了科研人员、工业界以及个人开发者均可自由访问与利用,也促进AI相关应用的快速扩展与多样创新。
开放模型的推出预计将为瑞士本土及欧洲的AI生态系统注入新的活力,强化数字主权,推动人工智能技术自主可控的发展方向。 这场由阿尔卑斯山脚下的超级计算中心引领的AI革命,或许预示了未来人工智能发展模式的转向——从闭源到开放,从孤立到协同。随着越来越多开源大语言模型的出现,机器学习社区的创新潜力将得到极大释放,人工智能也将变得更加公平、透明和包容。 总的来看,瑞士团队基于Alps超级计算机打造的完全开放LLM项目代表了当下AI研发的一个里程碑。其成功体现了高性能计算技术与前沿机器学习算法的紧密结合,以及对开源精神和数据透明度的高度追求。未来,随着这一系列模型和配套资源陆续发布,全球的研究者和开发者都将迎来难得的新机遇,在推动人工智能健康发展与应用落地方面发挥积极作用。
。