随着人工智能技术的高速发展,越来越多的公司将大量版权材料用于训练其大型语言模型(LLM),其中美国知名AI公司Anthropic便因使用书籍进行训练而被卷入了一场备受关注的版权诉讼。该案件在加州北区联邦法院展开,涉及数百万份被控未经授权用于训练的书籍。虽然法院近日就“公平使用”问题作出初步判决,裁定Anthropic对训练和将纸质书转换为数字格式的行为构成合法的公平使用,但因其中部分书籍为盗版复制品,公司仍面临严峻的法律责任和高额赔偿风险。该事件对AI领域版权保护与创新发展之间的平衡提出了新的挑战,也令AI企业的合规实践引发广泛关注。案情始于2024年8月,由包括Andrea Bartz、Charles Graeber和Kirk Wallace Johnson在内的图书作者联合发起版权侵权集体诉讼。原告指控Anthropic未经授权使用其作品,软件训练系统并保持庞大的数字图书库,其中包含大量盗版和购买的书籍。
诉讼自启动以来,围绕是否适合以集体诉讼形式审理,以及数百万作品的索赔金额展开激烈辩论。鉴于如按最高法定赔偿金额计算,潜在赔偿高达7500亿美元,Anthropic对此表示极大担忧,认为案件规模难以管理且面临“毁灭性”打击。2025年5月,法院针对公平使用的动议进行了听证。该案主审法官William H. Alsup敦促双方和解,强调公平使用判决的重要性。但他也明确提出,盗版书籍的使用不构成公平使用,且将举行相关审判决定赔偿责任。法院依据版权法第107条的四因素标准进行裁定,分别评估使用的目的和性质、作品本身的特性、所使用部分的比例以及使用对潜在市场的影响。
法院认定,Anthropic为训练目的使用正版书籍及将纸质书数字化的行为在很大程度上具备变革性和公益价值,因而符合公平使用条件。判决中提到,这项技术“堪称我们这一生中最具变革性的创新之一”,明确了AI训练数据范围内内容的合理利用空间。然而,法院对于Anthropic通过盗版渠道获取的书籍使用持否定态度,指出这些作品的永久保存及未针对其使用提出具体合理理由的行为,既无变革性又侵害了版权人权益。此部分行为不构成公平使用,相关赔偿问题需通过审判进一步厘清。值得注意的是,法院指出曾购买盗版书籍的行为并不能免除侵权责任,但可能影响赔偿额度。这表明即便事后购买版权也无法完全抵消此前的不当行为。
Anthropic此次判决获得了部分胜利,但面对巨额赔偿风险,仍需谨慎应对相关指控。作为一宗引发业界广泛关注的案件,该判决被视为未来AI平台训练数据合法性的重要参考,裁决在一定程度上为AI训练过程中的版权运用划定了界限,尤其明确了对盗版数据的零容忍态度。若该判决在后续司法程序中得到维持,将对AI行业数据收集和利用产生深远影响,或促使相关企业优化数据采购和管理机制,避免法律纠纷升级。同时,该案件并非孤例,类似涉及AI训练数据版权问题的诉讼正在全球范围内增多。比如OpenAI因涉嫌未经许可使用作者作品,也面临多起版权集体诉讼。微软与《纽约时报》之间围绕AI生成内容的版权纠纷,以及Ross Intelligence与Thomson Reuters的版权官司也在不同法院进行,均涉及公平使用的界定和数据合法性审查。
这些案件共同折射出AI时代知识产权保护与创新利用之间的矛盾与博弈。法律界与产业界正密切关注此类诉讼的走向与判决细节,以期形成更为明确的合规标准和行业规范,为技术创新保驾护航的同时,尊重原创劳动成果,防止版权侵权行为泛滥。Anthropic案件的双方律师阵容亦极具代表性。原告方面,Susman Godfrey律所的Justin Nelson担任主要代理律师,他同时代表多名作家针对OpenAI的版权诉讼,显示出版权保护团体对AI训练内容版权问题的密切关注。Anthropic则由Arnold & Porter律所的Joe Farris领衔辩护团队,应对复杂的版权指控和法律挑战。展望未来,人工智能训练数据的合法获取与使用将成为AI发展关键议题。
企业需在产品研发过程中充分考虑版权风险,强化数据管理和合规审查,积极寻求版权许可和合作,避免依赖不明来源或盗版内容。监管机构和立法部门也可能逐步出台针对AI数据使用的专门法规或指导原则,确保技术进步与版权法规之间的良性互动。总的来说,Anthropic案件是一场关于AI技术发展与版权法新边界的典型纠纷,体现出AI产业在高速发展与法律规范之间的复杂矛盾。虽然目前裁判结果为公平使用提供了部分积极判例,确保合法获取数据训练AI模型的路径畅通,但严厉打击盗版行为仍是版权保护的核心原则。未来随着相关案件陆续展开审判及可能的上诉,该领域的法律环境将更加清晰和稳定,助力人工智能行业健康持续发展。各方均需尊重知识产权,维护公平竞争秩序,共同推动AI技术造福社会的美好愿景。
。