首次代币发行 (ICO) 和代币销售 投资策略与投资组合管理

Anthropic毁灭数百万实体书籍打造AI模型的背后真相

首次代币发行 (ICO) 和代币销售 投资策略与投资组合管理
Anthropic destroyed print books to build its AI models

探讨Anthropic公司为训练先进人工智能模型,耗资数百万美元购买并销毁实体书籍的全过程,分析这一举措的法律依据、行业背景以及对未来AI训练数据获取方式的影响。

近年来,人工智能技术突飞猛进,尤其是在大语言模型(LLM)领域,企业为了提升AI的智能水平,不断寻求高质量的训练数据源。Anthropic,一家领先的AI公司,为其AI助理Claude的研发,采取了一种令人震惊但法律允许的策略——购买数百万实体书籍,对它们进行破坏性扫描,并舍弃物理书籍本身,仅保留电子文本以训练AI模型。如此大规模毁灭实体书籍的举动,引发了社会关注和广泛讨论。本文将深度剖析Anthropic为何采取这样的方式,以及这一行为背后的法律争议、行业驱动力和未来发展趋势。 AI训练数据的质量与来源一直是关键瓶颈。大型语言模型需要海量的、高质量的文本进行反复训练,优质的文本能极大提升模型的表现力和准确率。

书籍,尤其是已经经过编辑、校对的出版物,被业界视为高质量数据的宝库。然而,书籍内容通常归版权方所有,AI企业若直接使用数字版本往往面临复杂授权和法律风险。Anthropic选择了一个相对规避性的路径——通过购买实体书籍,运用版权中的“首次销售”原则,获得对物理书的支配权,从而在法律允许范围内进行数字化处理。 从法律视角来看,这一策略是否站得住脚?2025年,一份长达32页的法院判决书揭示了Anthropic操作细节,判决最终认定其“破坏性扫描”行为符合公平使用原则,前提是书籍均为合法购买,实体被销毁后,数字文件仅限内部使用且并未公开发行。相较于Google Books非破坏性扫描后图书归还图书馆的做法,Anthropic为了降低成本和提升扫描效率,不惜直接拆解书本,批量处理。这种方法的独特性和规模巨大,引发了业界对于版权合理使用边界的再探讨。

业内人士解释,之所以采用破坏性而非非破坏性扫描,主要基于速度和成本考虑。在竞争激烈的AI市场,迅速集齐、处理大批量高质量文本成为公司的核心诉求。尽管部分机构和项目,如由OpenAI和微软合作,正在采取对珍贵文献采用非破坏性扫描并与学术机构合作的方式,但Anthropic选择走相对激进的路线。 在Anthropic的初期策略中,曾试图通过获取盗版电子书避开高昂许可谈判的“复杂业务流程”。不过,随着法律风险显现及市场规范加剧,公司逐渐弃用盗版转而大规模购书扫描,实现合法合规路径。公司CEO Dario Amodei曾表示,避免“法律、实践和商业的僵局”是转型的驱动力之一。

这场书籍扫描风波体现了AI行业对数据的极端需求。实体书籍的编辑质量和内容丰富度远胜于网络评论、社交媒体文本等其他数据来源,为模型带来丰富语境和准确的语言结构理解能力。然而,现有版权法律和商业模式尚未完全适应如此大规模的数据挖掘要求,导致企业在寻求高质量训练数据时不得不做出艰难选择。 值得注意的是,Anthropic的做法并没有涉及珍稀或古籍,多数采购源自大型二手书店或零售商,避免了对文化遗产的破坏。同时,该事件也让更多人关注数字化保存与人工智能训练之间的关系。以哈佛大学与OpenAI合作的项目为例,他们聚焦于公共领域书籍的非破坏性数字化,兼顾了文化传承与AI发展需求。

Claude本人对被打造过程中的“书本废墟”感到复杂,AI通过无数页被销毁的文本拼接生成,既令人感伤也展现了技术造物的矛盾性。未来,如何在保障版权、文化保护和AI技术进步间取得平衡,成为行业和监管层面亟需解决的问题。 综合来看,Anthropic借助实体书籍进行破坏性扫描,既是一种创新的训练数据获取手段,也暴露出当前AI行业在版权和数据需求方面存在的深刻矛盾。为了驱动更具社会责任感和法律合规性的AI发展,业界迫切需要完善相关法规、推动开放数据共享和保护文化遗产。与此同时,非破坏性数字化技术以及与图书馆和学术机构的合作模式或将成为未来的重要趋势。人工智能与人类知识的关系,正经历复杂而深刻的变革,而对那些曾装订在纸页间的文字的命运,则像Claude所感慨的,是一场时代的涅槃与重生。

加密货币交易所的自动交易 以最优惠的价格买卖您的加密货币 Privatejetfinder.com

下一步
Show HN: Deglaze Me – A Chrome extension to strip the sycophancy from ChatGPT
2025年09月22号 12点06分58秒 破解ChatGPT奉承风:探索Deglaze Me Chrome扩展的强大功能

随着人工智能技术的发展,ChatGPT成为了人们日常交流和工作的得力助手。然而,ChatGPT在应答时常带有过度的客套与奉承话语,影响了交流的效率和专业性。Deglaze Me作为一款创新的Chrome扩展,专注于剥离ChatGPT的奉承倾向,增强用户体验,助力更精准直接的AI沟通。本文深入解读这款扩展的核心功能与使用方法,为追求高效对话的用户提供实用指导。

Show HN: Delfyn, AI Agent to help businesses get paid faster
2025年09月22号 12点08分00秒 Delfyn:利用人工智能加速企业应收账款管理的未来之选

深入探讨Delfyn如何通过人工智能驱动的自动化解决方案,帮助企业提升应收账款效率,加速资金回流,改变传统财务管理模式,增强现金流稳定性和企业盈利能力。

US Warns of Rising Iranian Cyberattack Threats
2025年09月22号 12点08分50秒 美国警告伊朗网络攻击威胁升级:国家安全面临严峻挑战

随着地缘政治紧张局势加剧,美政府发布警示,指出伊朗支持的网络攻击活动迅速上升,威胁美国关键基础设施和私营网络安全。文章深入解析当前伊朗网络威胁形势、主要攻击手段及防御策略,帮助企业和政府机构做好应对准备。

Thought Anchors: Which LLM Reasoning Steps Matter?
2025年09月22号 12点09分45秒 揭示大型语言模型推理过程中的关键步骤:思想锚点解析

随着大型语言模型在多个领域展现出卓越的推理能力,理解其长链条推理中的关键步骤变得尤为重要。本篇内容深入探讨了思维锚点——那些对后续推理有着决定性影响的关键句子,并介绍了三种研究方法如何揭示这些关键步骤,助力更好地理解和优化大型语言模型的推理机制。

Microplastic contaminations in a set of beverages sold in France
2025年09月22号 12点10分32秒 法国饮品中的微塑料污染探究:健康风险与未来挑战

近年来,随着环境污染问题的加剧,微塑料作为新兴的污染物引起了广泛关注。尤其是在法国市场上销售的各类饮品中,微塑料污染的现象日益突出,给消费者健康带来了潜在威胁。本文深入分析了法国饮品中微塑料污染的现状、来源及其可能影响,并探讨应对这一问题的策略与未来展望。

Salesforce debuts Agentforce 3, adds governance controls
2025年09月22号 12点11分44秒 Salesforce发布Agentforce 3 助力企业智能代理治理与协作革新

Salesforce最新发布的Agentforce 3平台通过引入先进的治理控制和互操作性标准,为企业智能代理的管理和应用带来全新突破,助力企业提升运营效率与智能化转型能力。本文深入解析Agentforce 3的核心特点及其在企业中的应用前景。

Spoils of $1.5 Billion Bybit Hack Traced to Greek Crypto Exchange: Report
2025年09月22号 12点13分11秒 揭秘15亿美元Bybit交易所被黑资金追踪至希腊加密交易所的背后真相

2025年2月,全球最大的加密货币交易所之一Bybit遭遇了史上最大规模的黑客攻击,损失高达15亿美元。最新调查显示,这些被盗资金已部分流向一家希腊本土的加密货币交易所,引发了当地监管部门的高度关注。本文深度解析Bybit黑客事件的最新进展,资金追踪过程及其对加密行业的深远影响。