近年来,人工智能技术迅猛发展,尤其是大型语言模型在自然语言处理、自动翻译、内容生成等领域中展现出强大潜力。然而,主流大型语言模型多由商业公司在封闭环境下开发,数据来源和模型结构往往缺乏透明度,导致公众难以全面了解其运行机制和潜在风险。瑞士联邦理工学院(ETH Zurich)与洛桑联邦理工学院(EPFL)联手,联合瑞士国家超级计算中心(CSCS),从零开始打造了一个完全开放的大型语言模型(LLM),并计划于2025年夏末正式发布。这一模型的诞生不仅为开放源码AI注入新活力,同时在多语言支持、数据透明和伦理合规方面树立了新的标杆,助力构建一个面向公益和全社会受益的AI生态。模型训练在瑞士先进的“阿尔卑斯”超级计算机上进行,该平台配备超过一万颗NVIDIA Grace Hopper超级芯片,保障了训练过程的高效与环保,采用百分之百碳中和电力,体现了对可持续发展的高度重视。通过与NVIDIA及HPE/Cray长达十五年的密切合作,阿尔卑斯超级计算机具备强大计算能力,顺利满足了大型语言模型复杂训练的严苛需求,彰显了公私合作推动科研前沿的典范。
该大型语言模型分为两种规模版本,分别拥有八十亿与七百亿参数,后者堪称全球最强的开源语言模型之一。模型训练所用数据涵盖超过一千五百种语言,其中文本数据占相当比例,约六成为英语内容,四成为非英语内容,此外还包括代码和数学数据。如此多样且广泛的语言覆盖,使得该模型在多语种处理能力上有着显著优势,尤其是在传统AI系统忽视的小语种和边缘语言上表现突出。这种设计理念确保模型能够被全球不同语言和文化背景的用户广泛应用,旨在实现技术的普惠。与此同时,为了保障模型的可靠性和表现力,训练过程中使用了超过十五万亿个高质量训练样本(tokens),显著提升了模型对语言的理解深度和生成能力,支持丰富的应用场景。从数据使用的角度来看,该项目充分尊重瑞士的数据保护法规和版权法律,严格遵循欧盟人工智能法案中关于透明度的要求。
最近的相关研究表明,在采集网络数据时尊重网站的爬虫屏蔽设置并不会对模型性能产生显著影响。这为以后更加合规、负责任的数据使用树立了良好典范。值得关注的是,此次模型相关的所有源代码、权重文件和训练数据将完全公开,基于Apache 2.0开源许可协议发布。该透明策略不仅推动学术界、政府部门和商业企业的广泛采用,也有助于科研人员深入研究和完善该模型,促进创新与风险管控双向平衡。EPFL的Martin Jaggi教授指出,透明度是推动人工智能技术走向公平竞争和创新的重要保障,同时也是吸引顶尖人才加入AI领域的关键因素。瑞士人工智能倡议是这一项目的核心支持体系,由EPFL和ETH Zurich共同发起,汇集了全国10余家学术机构,汇聚逾八百名研究者,借助CSCS超级计算中心每年超过两千万GPU小时的计算资源,打造全球最大的开放科学与开源AI基础模型开发努力。
该倡议得到了ETH管理机构的资金支持,确保计划能够持续实施并扩大影响。此次语言模型开发还得到了ELLIS网络的支持,后者是欧洲领先的AI研究联盟,专注于可信赖的人工智能、技术创新和社会影响研究,凭借其跨国、跨机构的网络,赋能瑞士科研团队在国际舞台发挥更大影响力。举办于日内瓦的国际开源大型语言模型构建者峰会,集结了全球约50个主要开源与可信AI组织,展示了开放式基础模型带来的技术可能性与合作潜力。该峰会由EPFL和ETH Zurich主办,标志着国际学术与产业界在此领域迈出了重要协作步伐。相比起美国和中国大型科技公司控制的闭源AI系统,瑞士这一开放项目突显了不同的发展路径,即依托公共基础设施,同时遵守严格的数据和法律规范,推动AI技术的公平普惠。公众和企业将能够自由下载并使用该模型,依据官方说明文档开展定制开发和创新应用。
许多业内人士及AI爱好者对该模型寄予厚望,期待其成为连接学术研究与产业应用的桥梁。瑞士超级计算中心主任Thomas Schulthess强调,超级计算资源的战略投资是打造主权AI基础设施的关键,实现了科研自主性和安全性,从而提升了整个数字生态系统的韧性和创新能力。不可忽视的是,该语言模型特别注重多语言能力,不仅满足主流语言的处理需求,更覆盖众多稀缺语种,填补了传统AI系统中存在的语言不平等现象。通过这样的技术进步,瑞士AI团队为解决全球信息鸿沟贡献出重要力量。总结来说,瑞士联邦理工学院与洛桑联邦理工学院合作开发开放式大型语言模型,依托顶尖超级计算机和开源哲学,打造了一个多语言、高性能、合规透明的AI工具,为全球范围内科研、教育、政府及企业提供了可靠的技术支持。这一举措不仅促进了科技创新,更为全球人工智能的可持续发展和民主化铺就了坚实基础,彰显了面向公益的AI技术发展方向,必将在未来人工智能历史上留下重要的篇章。
。