近年来,人工智能技术的发展引发了学术界、产业界乃至法律界的高度关注,尤其是在大规模语言模型(LLM)的训练数据来源方面。Anthropic公司作为OpenAI的竞争对手,开发了名为Claude的人工智能语言模型。近日,一起关于Anthropic训练过程中使用盗版书籍的诉讼案件引发了公众和业界对于AI训练数据版权合规性的热议。法院的裁决不仅涉及技术层面,更牵动着版权保护和合理使用的法律边界。Anthropic在构建Claude模型时,花费数百万美元购买了数百万册二手书,然后将这些实体书拆解扫描成数字版,用于训练模型。法院确认这种做法虽然涉及大规模复制,但因购书行为合法并且训练目的具备高度变革性,被判定属于合理使用范畴。
然而,判决同时揭露了Anthropic另外一面:公司下载了超过七百万册盗版书籍,以此节省法律和商业上的复杂程序。根据法官William Alsup提供的信息,Anthropic的联合创始人Ben Mann承认在2021年从Library Genesis非法下载了至少五百万本书籍,随后又从Pirate Library Mirror下载了两百万本盗版书。法官谴责这一行为属于明显的盗版侵权行为,不应通过合理使用条款获得免责。此案的判决是当前司法环境下首次较为全面、系统地探讨了人工智能训练数据的版权问题,具有开创性意义。AI语言模型的训练需要大规模、多样化的文本数据,为此公司通常收集网络文章、社交媒体内容、视频转录和电子书等多种来源。这些数据中往往夹杂大量受版权保护的内容,版权持有人因此发起诉讼,认为未经授权的训练行为侵犯了其合法权益。
与此相对,部分技术专家和AI企业则主张训练使用版权作品属于合理使用,因为训练模型的过程是创造性转化,不是在简单复制或传播,而是在借鉴作品以生成创新内容。这一定程度上契合了版权法促进创新和知识进步的初衷。Anthropic使用购买的实体书籍进行拆解扫描,法院认定其行为符合合理使用,主要基于两点:一是已合法购买原版书籍,且扫描行为是为了数字化存储便于模型调用,没有另行增发出版物;二是模型使用文本信息是为了学习和理解语言结构、知识表达,具有高度的变革性,非直接复制。这种变革性最终促使模型输出与原作内容有显著差异,体现了创新性的创作过程。然而,盗版部分的使用则被严格否定。盗版书籍的下载和使用不仅涉及版权本身,更关系到法律环境和企业道德。
法院强调,盗版资料的利用无法通过合理使用原理辩护,属于明显侵权行为,需要承担相应的法律责任。此案反映出AI行业目前面临的尴尬局面:AI模型的发展需要海量优质数据,但合法获取难度极大、成本不菲,获得版权授权的程序繁琐,使得部分企业倾向于通过盗版渠道获得数据以快速推进技术研发。从版权角度来看,未来人工智能训练所使用数据的界限依然模糊。如何在保障作者和版权方正当权益的同时,推动AI技术的持续创新,是全社会亟需解决的问题。判决也引发了产业界对AI训练合规策略的反思。包括Anthropic在内的多家知名AI公司正在尝试建立更为透明和合法的数据采购体系,推动版权方与技术企业之间的合作,开发创新型版权许可模式。
这不仅有助于提高技术的可持续发展性,也能避免潜在的法律风险和社会争议。分析人士认为,未来版权法和司法实践可能针对人工智能的数据使用进行持续调整。像美国目前对合理使用条款的定义不断扩展,法院也在平衡创新驱动与版权保护间寻求新的判例指导。与此同时,版权持有者也在积极参与相关立法讨论,推动建立更完善的数字版权管理体系。除了法律层面的影响,此案件还引发了公众对AI伦理和技术责任的关注。AI训练数据的来源清晰、合法,不仅是技术可信赖的基石,也涉及技术对社会公平、知识产权尊重等价值的体现。
Anthropic案件警示业界,在追求技术突破的同时,必须强化合规意识,尊重创作者权益,避免走上非法侵权的道路。总结现阶段看,Anthropic利用正版书籍数字化训练模型的行为被视为合理使用,代表了某种法律认可的AI数据利用模式;但盗版书籍的大规模下载则被裁定为非法侵权,强调了版权保护的重要性和不可逾越的底线。此种判决为AI领域版权合规树立了有益的法律范式,也促使业界重新思考数据治理和版权合作的未来方向。随着AI技术持续快速发展,建立合理、合法、公平的数据获取和使用机制将成为推动行业繁荣与创新的关键所在。