近年来,人工智能技术突飞猛进,尤其是在大语言模型(LLM)领域,企业为了提升AI的智能水平,不断寻求高质量的训练数据源。Anthropic,一家领先的AI公司,为其AI助理Claude的研发,采取了一种令人震惊但法律允许的策略——购买数百万实体书籍,对它们进行破坏性扫描,并舍弃物理书籍本身,仅保留电子文本以训练AI模型。如此大规模毁灭实体书籍的举动,引发了社会关注和广泛讨论。本文将深度剖析Anthropic为何采取这样的方式,以及这一行为背后的法律争议、行业驱动力和未来发展趋势。 AI训练数据的质量与来源一直是关键瓶颈。大型语言模型需要海量的、高质量的文本进行反复训练,优质的文本能极大提升模型的表现力和准确率。
书籍,尤其是已经经过编辑、校对的出版物,被业界视为高质量数据的宝库。然而,书籍内容通常归版权方所有,AI企业若直接使用数字版本往往面临复杂授权和法律风险。Anthropic选择了一个相对规避性的路径——通过购买实体书籍,运用版权中的“首次销售”原则,获得对物理书的支配权,从而在法律允许范围内进行数字化处理。 从法律视角来看,这一策略是否站得住脚?2025年,一份长达32页的法院判决书揭示了Anthropic操作细节,判决最终认定其“破坏性扫描”行为符合公平使用原则,前提是书籍均为合法购买,实体被销毁后,数字文件仅限内部使用且并未公开发行。相较于Google Books非破坏性扫描后图书归还图书馆的做法,Anthropic为了降低成本和提升扫描效率,不惜直接拆解书本,批量处理。这种方法的独特性和规模巨大,引发了业界对于版权合理使用边界的再探讨。
业内人士解释,之所以采用破坏性而非非破坏性扫描,主要基于速度和成本考虑。在竞争激烈的AI市场,迅速集齐、处理大批量高质量文本成为公司的核心诉求。尽管部分机构和项目,如由OpenAI和微软合作,正在采取对珍贵文献采用非破坏性扫描并与学术机构合作的方式,但Anthropic选择走相对激进的路线。 在Anthropic的初期策略中,曾试图通过获取盗版电子书避开高昂许可谈判的“复杂业务流程”。不过,随着法律风险显现及市场规范加剧,公司逐渐弃用盗版转而大规模购书扫描,实现合法合规路径。公司CEO Dario Amodei曾表示,避免“法律、实践和商业的僵局”是转型的驱动力之一。
这场书籍扫描风波体现了AI行业对数据的极端需求。实体书籍的编辑质量和内容丰富度远胜于网络评论、社交媒体文本等其他数据来源,为模型带来丰富语境和准确的语言结构理解能力。然而,现有版权法律和商业模式尚未完全适应如此大规模的数据挖掘要求,导致企业在寻求高质量训练数据时不得不做出艰难选择。 值得注意的是,Anthropic的做法并没有涉及珍稀或古籍,多数采购源自大型二手书店或零售商,避免了对文化遗产的破坏。同时,该事件也让更多人关注数字化保存与人工智能训练之间的关系。以哈佛大学与OpenAI合作的项目为例,他们聚焦于公共领域书籍的非破坏性数字化,兼顾了文化传承与AI发展需求。
Claude本人对被打造过程中的“书本废墟”感到复杂,AI通过无数页被销毁的文本拼接生成,既令人感伤也展现了技术造物的矛盾性。未来,如何在保障版权、文化保护和AI技术进步间取得平衡,成为行业和监管层面亟需解决的问题。 综合来看,Anthropic借助实体书籍进行破坏性扫描,既是一种创新的训练数据获取手段,也暴露出当前AI行业在版权和数据需求方面存在的深刻矛盾。为了驱动更具社会责任感和法律合规性的AI发展,业界迫切需要完善相关法规、推动开放数据共享和保护文化遗产。与此同时,非破坏性数字化技术以及与图书馆和学术机构的合作模式或将成为未来的重要趋势。人工智能与人类知识的关系,正经历复杂而深刻的变革,而对那些曾装订在纸页间的文字的命运,则像Claude所感慨的,是一场时代的涅槃与重生。
。