人工智能(AI)技术的飞速发展正深刻改变着社会的各个领域,尤其是大语言模型(LLM)的广泛应用,使得机器能够理解并生成近似人类的自然语言内容。然而,训练这些模型所需的大规模数据资源,尤其是版权保护的书籍、文章和其他创作作品的使用,成为当前法律争议的焦点。2025年6月,一场备受瞩目的法律案件在美国加州展开,法官威廉·阿尔萨普(William Alsup)做出了一项重要判决,支持AI公司Anthropic在其训练过程中使用版权书籍的行为,判定其属于“合理使用”范畴。这一判决不仅为AI企业正名,也在版权法与人工智能的交汇点释放出强烈信号。案件的起因可以追溯至2024年,三位作家——包括畅销悬疑惊悚作家安德里亚·巴茨(Andrea Bartz)及非小说作者查尔斯·格雷伯(Charles Graeber)和柯克·华莱士·约翰逊(Kirk Wallace Johnson)——指控Anthropic未经授权盗用她们的书籍,用作训练其名为Claude的AI语言模型。她们认为这种做法侵犯了版权,谋取了不正当商业利益。
对此,Anthropic辩称其训练过程属于“变革性使用”,这种利用与单纯复制不同,因其目的是为了生成原创内容,而非简单复制作者作品。法官阿尔萨普的判决明确认可了这一观点。他指出,Anthropic的模型训练行为“极具变革性”(exceedingly transformative),类似于人类读者通过阅读吸收知识,然后创作出不同的作品。判决强调,训练AI模型需要在内部复制这些作品的内容以实现学习,但这类复制属于合理使用,不构成直接侵犯版权。然而,虽然法院认可了变革性使用的合理性,法官还否定了Anthropic请求撤销本案的要求,指出该公司在建立一个包含超过七百万盗版图书的“中央图书馆”时,确实侵犯了作家的版权。这意味着公司仍需面临审判,明确非法获取和存储版权作品的责任。
Anthropic作为一家由亚马逊和谷歌母公司Alphabet支持的AI企业,其商业价值数十亿美元,此案的影响巨大。判决成为首批涉及大型语言模型合法训练范围的司法案例之一,具有开创性意义。法官在判词中写道,Anthropic的机器学习模型训练如同任何渴望成为作家的阅读者一样,通过学习以创造“不同”的内容,而非简单复制作品。重申若训练结果产生了侵犯版权的“抄袭品”,案件将截然不同。现阶段,原告没有指控Claude模型输出侵权作品,也未发现直接复制的文本。该案例在整个AI行业引发了广泛关注。
除了书籍之外,新闻文章、音乐、视频等多媒体内容的采集与使用同样面临版权纠纷。近期,迪士尼和环球影业联合起诉AI图像生成器Midjourney,指控其侵权行为。BBC也在考虑采取法律行动,反对未授权使用自身内容。面对这样的法律挑战,一些AI企业开始与版权拥有者和出版商协商,尝试获得正式授权许可,减少潜在的法律风险。Anthropic方面表示,感谢法官认可其使用作品是变革性的,但对将案件推进审判阶段,聚焦某些书籍实际获取方式表示异议,仍在考虑进一步法律行动。该案件揭示了人工智能时代版权保护与创新之间的复杂矛盾。
一方面,训练大型语言模型依赖海量的文本数据,需要合理使用已有作品保障技术进步;另一方面,作家和版权拥有者保护原创劳动成果以维护合法权益。法律如何平衡两者,将直接影响未来AI产业的规范发展与创新动力。专家认为此次判决强化了合理使用原则在AI训练中的适用,为全球其他司法管辖区处理类似案件提供了有益参照。同时,明确指出未经授权保存盗版书籍是不可接受的,促使企业加强合规管理,推动版权保护的新常态。未来,AI行业可能面临更严格的监管与规范,但也有望通过合作授权方式实现共赢。总结来看,美国法院对Anthropic在训练AI过程中合理利用版权书籍的认定,既保护了创新技术发展,又兼顾了版权保护的基本精神,代表了版权法在数字时代与人工智能交织下的积极演进。
随着判例的丰富与法律的完善,AI训练数据的合规使用有望逐渐明晰,促进技术与文化产业的和谐共生。