近年来,随着人工智能技术的飞速发展,使用大量数据训练模型已成为推动创新的核心。尤其是大型语言模型(LLM),其性能高度依赖于丰富多样的训练数据。然而,数据版权问题也随之引发了广泛关注。美国法律界最近一起备受瞩目的案件——Anthropic与五位作者之间的版权诉讼,因涉及人工智能训练数据的公平使用问题,成为行业的重要风向标。2025年6月,负责审理该案的法官William Alsup发布了具有里程碑意义的“摘要判决”,判定Anthropic在某些方面属于合法使用,然而涉案的盗版书籍数据依然存在争议。Anthropic作为一家新兴的人工智能公司,由多名前OpenAI研究人员于2021年初成立。
在案件细节中,审判揭示了公司初创期通过下载大量未经授权的数字书籍数据来构建训练数据集的事实。特别是Books3数据库,这是一份由未经授权的复制品组成的电子书库,内含近20万本书。Anthropic联合创始人Ben Mann承认其知晓这些资源存在版权问题,仍然选择在2021年和2022年通过Library Genesis(LibGen)、Pirate Library Mirror(PiLiMi)等平台下载超过七百万份未经授权的书籍副本。尽管这些数据曾被纳入公司内部“研究图书馆”,并且即便后来决定不再使用这些盗版电子书进行模型训练,但它们依然保存在公司库中。法院明确指出,这部分行为违反了版权法相关规定,相关书籍没有获得授权,因此不构成公平使用。与此形成鲜明对比的是,Anthropic在后续训练过程中转变了策略。
通过大量采购实体书籍,再由专业团队将书籍拆解、扫描成可机器识别的PDF文件,构建起一个合法获取的数字图书库。判决认定,这些经过加工的扫描文件形成了转换性使用,即通过技术手段转化为模型训练所需的数据形式,且未对外公开或传播,因此符合版权法中“公平使用”的范畴。法官Alsup的判决书中引用了人们阅读、内化文本内容并创作新作品的类比,指出若对知识的每次“调用”都要求额外付费,将极大限制创造力和表达自由的发展。以此类推,训练语言模型时利用文本内容的行为,应被视为合理的受法律保护的转化性用途。该判决不仅为Anthropic自身扫清了法律障碍,更为整个AI训练数据使用领域树立了法律标杆。它明确了大规模语言模型训练中,合理使用未经授权数据和通过正规的实体书购买取得数据之间的本质区别。
尽管公平使用防护提供了法律支持,但盗版数据依旧面临诉讼风险。据最新消息,涉案的盗版书籍部分将由陪审团审理,这意味着相关争端尚未完全解决。值得注意的是,判决同时反映出Anthropic为规避法律风险,正积极招聘前谷歌图书扫描项目负责人,通过购买和合法扫描实体书扩大数据来源。该策略虽然成本高昂,却有效减少了版权纠纷,同时保证了训练数据的多样性和质量。该案引发了业界对人工智能数据伦理和版权问题的广泛讨论。人工智能发展依赖于海量数据,但数据来源是否合法、是否尊重知识产权,直接影响技术的持续健康发展。
公平使用的判例为AI创新提供法律弹性,但不能成为滥用版权的保护伞。创作者权益保护与技术进步需要达到动态平衡。Anthropic案件中,法官Alsup展现出对技术细节的深入理解,其独特背景帮助他公正评估了复杂的法律与技术交叉问题。此前他曾在Oracle与Google的专利案中担任法官,因为其编程经验而以实事求是著称,此次判决中也体现出同样的成熟判断力。此外,随着案件进展,Anthropic已宣布与相关原告达成总额达15亿美元的集体和解协议,这表明双方在未来合作和权益保障上取得阶段性共识,同时案件对AI数据采集合法性的探讨仍将继续影响行业格局。展望未来,人工智能公司需在获取训练数据时更加谨慎,优先采用合法采购和公共领域资源,结合公平使用范围,确保创新的同时尊重版权法规。
政策制定者和产业界也应加强对AI训练数据标准的规范,促进透明、公平的合作环境。综合来看,Anthropic案件不仅重塑了人工智能版权使用的法律边界,也激发了社会对AI伦理、版权保护与技术创新共存关系的深刻反思。它证明创新必须根植于尊重规则与保护创作者权益的土壤上,才能实现健康持续的技术发展。随着人工智能步入更广泛的商业和社会应用场景,诸如此类法律判决将为行业提供有力指导,推动一个公平、有序的数字知识生态系统建设。