开源人工智能(AI)现在有了明确的定义。这意味着什么?为什么这个定义仍然充满挑战?在当今技术飞速发展的背景下,开源AI的概念变得愈发复杂,问题也日益严重。 最近,由开放源代码倡议(Open Source Initiative,简称OSI)发布了一个新的工作定义,试图为开源AI提供一个更明确的框架。开源的传统定义是指软件的源代码对所有人开放,任何人都可以使用、修改和分发。然而,随着人工智能的复杂性增加,简单的开源概念似乎不再适用。 OSI的开源定义包含十项标准,确保软件能够以合理的成本或免费获取,同时不对用户和其他软件施加歧视性限制。
虽然在许多软件项目中,这些标准相对容易满足,但在AI领域,情况并非如此。AI系统的透明性要求与传统软件显著不同,这使得对开源AI的评估变得更加棘手。 新定义指出,开源AI可以在没有公司许可的情况下,用于任何目的,研究人员应能够自由了解系统的工作原理。此外,系统必须能够被修改,并允许用户基于或不基于任何修改分享该系统。最重要的是,AI公司必须透明地公开用于训练系统的数据、训练和运行系统的源代码以及影响AI模型性能的权重参数。 这些要求在理论上是合理的,但在实践中却表现出不少挑战。
例如,OpenAI尽管声称自己是一个开源平台,却实际上是闭源的,因为它的算法、模型和数据集并未公开。而类似于Meta、Grok和谷歌这些公司,尽管自称是开源,它们的实际做法也未必符合OSI的定义。原因在于这些公司并未对训练权重所使用的数据进行充分透明的披露,这不仅可能引发版权问题,同时也可能涉及偏见和伦理问题。 在制定这个新定义时,OSI进行了广泛的咨询,参与者包括研究人员、法律专家、政策制定者、活动家以及来自微软、Meta和谷歌等大型科技公司的代表。此定义的建立旨在应对愈发泛滥的“开源洗白”现象。开源洗白是指一些非开源模型或开放程度有限的模型被宣传为“领先的开源选择”,但实际上并未对开源社区作出任何贡献。
Mozilla的代表表示,开源洗白的后果十分严重,影响到创新、研究和公众对AI的理解。这一点在AI领域尤为突出,因为AI技术的发展和应用速度之快,常常使得公众难以跟上其变化的步伐。 值得注意的是,尽管OSI在推动开源AI定义的过程中发挥了重要作用,但其并没有强制执行这一定义的权力。OSI的执行董事Stefano Maffulli曾强调,尽管他们在定义的维护和推广上扮演了重要角色,但对于那些声称是开源的公司,他们缺乏有效的监管机制。 然而,Maffulli指出,全球越来越多的法官和法院开始意识到开源定义的重要性,尤其是在并购和监管方面。各国正加快制定AI的监管方案,而开源软件的概念在这其中引起了广泛的争论。
例如,某些公司如果声称自己的AI产品是开源的,实际上却并不符合开源定义,这种误导行为将混淆消费者的选择。开源定义不仅有助于识别和打击这种假宣传,同时也保护了不断发展的开源社区的权益。 此外,虽然OSI的定义为开源AI提供了一个框架,但随着AI技术的不断演进,这一框架也可能需要经常更新。开源AI领域的动态变化意味着,什么构成“开源”的标准也可能随之变化。 在实践中,开发者和公司们在践行开源的同时,也常常面临平衡开源优点与商业利益之间的矛盾。例如,一些初创企业可能在开发阶段就依赖于开源工具,但随着产品的商业化,维持开源的透明性和自由度就变得更加困难。
为了解决这一问题,很多公司开始探索“开放核心”(Open Core)模型,这种模式允许企业将主要产品开源,同时将一些附加功能或高级服务闭源,以实现盈利。 综上所述,开源AI的定义虽然在逐步明晰,但仍面临重重挑战。正如各方专家所指出的,开源的透明性和可访问性对于建立信任至关重要,只有当公众能够自由获取和理解这些AI系统时,创新才能蓬勃发展。然而,科技巨头的行为以及市场的驱动可能会让这一理想的实现变得更加困难。 在未来,开源AI的成功不仅依赖于技术的发展,也将取决于社会各界对开源定义的理解和支持。随着人们对AI伦理、数据隐私和合规性问题的关注不断加强,开源AI的标准和实践也将迎来新的挑战和机遇。
只有在开源与商业之间找到合理的平衡点,才能推动AI技术的持续创新与发展,让开源AI真正为人类社会带来福祉。