在人工智能领域,数据的获取与使用一直是关键且复杂的问题。尤其是在训练大型语言模型(LLM)和图像生成模型时,涉及数以亿计的网络内容。如何在推动技术进步的同时,保障内容创作者和版权持有者的权益,成为业界亟待解决的难题。近期,RSS标准联合创始人埃卡特·沃尔瑟携手一批技术专家与网络出版商,推出了一个全新的数据授权体系 - - Real Simple Licensing(简称RSL)。该协议致力于为AI训练数据建立一套可大规模实施的机器可读授权标准,为行业提供技术和法律支持,助力AI企业合法获取训练数据,避免版权纠纷带来的风险。 伴随着人工智能模型训练数据的法律诉讼逐渐增多,数据版权问题开始引起广泛关注。
业界知名案例包括安索普公司(Anthropic)因未经授权的数据使用达成15亿美元和解协议,以及针对Midjourney因创作涉及受版权保护的超级英雄形象而提起的诉讼。类似诉讼数量据报道多达40余起,警示着AI行业迫切需要建立法律保障和公平的授权系统。 Real Simple Licensing协议的发布正是在这样的背景下应运而生。沃尔瑟强调该协议的核心目标是创建一个可跨越互联网生态系统、机器可读的授权协议体系。它不仅为内容发布方提供灵活制定训练数据使用条款的方案,也便于AI公司快速识别哪些数据受到授权限制,从而进行合法使用。实际上,RSL协议在技术层面通过在网站的robots.txt文件中包含特定格式的许可条款,令自动化系统能够轻松解析和执行相关授权规则。
这使得内容授权信息融合到已有的网络爬取和数据采集流程中,极大地提升了数据版权管理的时效性和准确性。 除技术创新之外,RSL还建立了具有集体授权性质的组织 - - RSL Collective,功能类似音乐领域的ASCAP或电影界的MPLC。该组织将集中代表版权方与AI训练数据使用者进行授权条款谈判和版权费用的收取分配。通过一站式管理,帮助诸如中小型出版商这种单独谈判能力有限的权益持有者获得合理回报,同时简化AI公司的许可流程,达到双赢效果。值得关注的是,诸如雅虎、Reddit、中等媒体、O'Reilly Media、Mashable运营方Ziff Davis以及其他知名网络媒体,已经加入到该集体中。此外,Fastly、Quora、Adweek等机构虽然暂未加入集体,但也积极支持RSL标准的推广。
一个典型案例是Reddit,凭借其庞大社区生成的内容资源,与谷歌达成的版权交易为其带来每年约6000万美元的收益。这种个别授权协议可以并行于RSL体系下进行,使权益持有者实现专属谈判,同时通过集体授权弥补小型权益方的资源不足,实现版权收益的最大化。不过,AI模型的专有挑战在于追踪训练数据的具体"使用"时点与频次,尤其是高性能模型难以详细记录每份数据的调用,带来了计费和版权归属确认的难题。针对这一问题,RSL协议设计了灵活的授权模式,包括统一授权费和按使用次数付费两种方案,满足不同内容提供商与使用方的需求。 RSL联合创始人兼前IAC出版集团CEO的道格·利兹指出,虽然目前系统尚不能实现完美追踪,但只需达到"良好足够"的水平,确保版权方能够获得相应补偿,即可有效推动行业合规运作。事实上,部分领先AI训练团队已开始在合同中要求数据使用的透明报告,展示出对合规授权需求的响应与接受度。
然而,RSL协议的成功能否实现,仍有一个关键变量,那就是AI公司的接受度和参与度。尽管一些前沿AI企业如ScaleAI和Mercor愿意为优质数据付费,但网络数据长期以来被视为低成本甚至免费的资源,这种观念的转变需要时间和行业共识。伴随如Common Crawl等开放数据集的普及,部分AI实验室或许更倾向于利用免费资源而非付费授权。此外,网络抓取与机器浏览的界限亦不清晰,导致版权认证和授权执行面临技术挑战。 值得注意的是,谷歌CEO桑达尔·皮查伊在多个公开场合呼吁建立类似RSL的规范体系,以防止行业陷入版权纠纷的泥潭,保障技术持续创新。RSL团队对此持乐观态度,计划借助更多社区与企业的推动,推动该协议标准成为行业统一的版权授权框架。
总的来说,Real Simple Licensing协议在人工智能训练数据授权领域无疑开辟了新的路径。它不仅为版权保护提供了技术与法律支持,弥合了传统授权体系与互联网内容的差距,也为AI行业注入更为稳定和可持续的生态环境。在未来,随着更多AI公司与内容提供者的加入,RSL有望成为推动人工智能健康发展的关键基石。与此同时,版权方也将获得更公平的收益分配,有效抵御滥用数据带来的风险。正如沃尔瑟所言,机器可读的互联网授权协议是新时代数据经济的必要条件,RSL协议的出现恰逢其时。 展望未来,人工智能技术与数据版权的结合将继续演进。
RSL协议或将与更多技术标准和法律法规协同发展,促进全球范围内数据使用的公平性与透明度。对于所有期待规范、合法发展AI生态的从业者而言,密切关注这一领域动态,积极参与标准制定,将有助于把握行业风口,推动自身业务与技术持续进步。实现真正意义上的人工智能版权管理,或将成为数字经济新时代的里程碑。 。