近年来,人工智能技术飞速发展,特别是大型语言模型(LLM)的崛起,正在深刻改变信息传播和内容创作的模式。然而,随之而来的法律挑战也日益凸显。纽约时报诉微软公司一案,成为当前美国乃至全球范围内关于AI训练数据合法性及版权侵权责任探讨的焦点案件。本案不仅关涉到流媒体新闻巨头纽约时报和代表生成式AI领域的OpenAI与微软,还深刻影响着未来人工智能与知识产权保护之间的平衡。2015年4月,纽约南区联邦地区法院针对微软和OpenAI的驳回诉讼请求作出裁决。尽管案件涉及领域之新颖,其判决却缺乏面向公众的直观法律标准,更多停留在版权法技术层面的有限条款适用与判决,使得案件未能在主流媒体引发足够关注。
案件核心诉求聚焦于两个阶段:第一是在训练大型语言模型时使用原告作品的文本数据集合;第二是在模型输出回答时,涉嫌“逐字重现”原告受版权保护的内容。原告指控OpenAI在无需授权的情况下,使用纽约时报等受版权保护作品作为训练素材,导致其版权作品在生成的文本中被“泄露”。两大核心指控分别是直接版权侵权与衍生版权侵权。法律诉求涵盖直接侵权(违反17 U.S.C. § 501)、间接侵权、对侵犯版权行为的共谋责任、违反数字千年版权法案(DMCA)相关条款、传统不正当竞争侵权以及商标稀释等多方面。对此,双方针对案子时效性和法律适用性提出了多项辩护和反驳。微软和OpenAI认为,因训练活动早于诉讼期限三年以上,且公众通过媒体报道早已知晓相关行为,原告诉讼时效已过。
纽约时报记者早在三年前即报道了AI模型使用公开信息的事实,但法院认为公众知晓的范围和具体侵权行为仍有区别,尚不能视为原告应知晓侵权,允许原告继续收集证据。共谋版权侵权方面,法院重点剖析了第二巡回法庭认定的三要素:须证明第三方存在直接侵权;被告知晓或理应知晓第三方侵权;且被告有实质性贡献。法院认同原告指控, defendants 在训练模型时主动使用了受版权保护作品,这种行为已构成实质上的贡献。尽管被告提出类似于Sony与Grokster判决中“重大非侵权用途”的辩护,但法院认为这类案件主要涉及诱导侵权,与目前被指控的直接贡献关系不同,且当前阶段判决存在仓促之嫌,因此拒绝驳回共谋侵权诉讼请求。数字千年版权法案(DMCA)中的第1202条对本案影响显著。该条款规范版权管理信息(CMI)的维护,禁止未经授权有意删除或更改CMI。
法院认定,纽约时报作为权利人具备提起DMCA侵权诉讼的资格。对于微软,法院驳回了有关其参与删除CMI的指控,认为微软主要提供云计算基础设施,并无直接参与删除CMI行为。对OpenAI而言,法院认为纽约时报未能提供破解版权管理信息的具体细节,仅停留在概念层面,未达到合理推断侵权的门槛,导致对OpenAI的1202(b)(1)指控未能通过初步裁定。但针对其他原告如《每日新闻》和版权所有者联盟,则因具体指控OpenAI确实在内容提取过程中拆分了CMI,法院允许这类诉求继续推进。另一个与DMCA相关的1202(b)(3)条款指控对被告完全不利,因原告未能证实被复制内容完全或主要缺失CMI,仅存在片段复制,难以满足该条款构成要件。对于州法律的“热新闻”不正当竞争主张,法院基于版权排除原则一律驳回。
案件中最后一个涉及商标法的争议是针对OpenAI的联邦商标稀释指控。原告声称OpenAI未经授权使用其“著名商标”,且因其生成内容质量不佳,形成商标的贬损和模糊。法院聚焦于商标是否足够“著名”,这一构成商标稀释的前提。法院认定原告在该要件上做出合理陈述,足以进入证据开示阶段。虽然案件让OpenAI面临商标稀释新诉讼的可能性,但法院也点明AI技术本身并非自动构成商标稀释。裁决总结表明,法院对AI模型训练数据的版权侵权问题保持谨慎,未给出明确界定,但在技术性法律细节中埋下了深远的影响。
对OpenAI的版权共谋侵权诉求成功被激活,表明AI厂商难以完全依赖其产品“多用途”辩护免除法律责任。同时,法院认可版权管理信息的保护地位,即便细节尚需揭示,未来原告可据此加强诉求。另一个重要关注点是法院对AI生成内容“逐字重现”与“摘要改写”的区分,只有前者可视为直接侵权,有助界定未来版权争议的范围。案件中所涉的商标稀释指控,也提示生成式AI平台可能面临更复杂的知识产权风险。整体来看,此案是人工智能与版权法交汇的典型代表,体现了司法体系在新兴技术法律适应上的探索和矛盾。对AI企业而言,此案警示其在训练数据合规性、运营透明度和版权管理信息处理方面需格外谨慎。
对版权方而言,案件开启了利用现有版权法对新型技术侵权诉求的新路径,尽管充满不确定性。未来,随着AI技术和应用场景快速演进,相关法律议题必将更加复杂和突出。除了版权侵权和DMCA之外,数据侵权的界限、AI产品输出责任主体认定以及商标保护策略等都待进一步法律实践检验。此案反映了法院如何尝试在已存法律框架下平衡保护原创权利与鼓励技术创新的诉求。现实中,AI训练数据大规模采集往往涉及公开数据和版权内容,如何界定合理使用或需授权,成为热点问题。法院强调尽管公众知晓AI技术利用公开数据,版权方仍可能在具体侵权方面遭受实质性损害,诉讼时效并非绝对屏障。
有鉴于此,技术开发者应积极寻求版权许可和更清晰的内容供应链管理策略,从源头规避法律风险。总结来说,纽约时报诉微软AI版权案的判决虽未为人工智能训练数据法律问题提供一锤定音的答案,但为未来此类案件提供了框架与原则性指导,特别是在版权侵权共谋、DMCA条款适用以及商标稀释诉求方面作出了细致区分。随着类似诉讼和监管的出现,这些争议将逐渐推动版权法与新技术的不断对接与进化。法律界、科技企业及版权持有者应密切关注相关司法动态,积极探索符合双方利益的合作模式,以促进人工智能行业的健康生态发展。