在上世纪中叶,科研人员曾为了一块未受核试验放射性污染的钢而苦苦寻找。这种被称为"低背景钢"的材料,来源于第二次世界大战以前沉没或保存完好的船体与建筑结构。面对大气核试验留下的放射性沉降,科学家们不得不回溯历史去寻找能够保证极高灵敏度仪器不被背景辐射扰动的金属。如今,互联网时代出现了相似的担心:随着2022年以后生成式人工智能(Generative AI)迅速普及,越来越多的文本、图像与视频由机器生成或在训练中使用,从而使得"纯粹的人类创作"显得更加稀缺和值钱。围绕这一现象,一些技术人士与研究者开始收藏、标注并保留所谓的"前AI"内容,试图像当年的低背景钢一样保存一种未被新时代污染的材料。 这个比喻并非空穴来风。
低背景钢之所以重要,是因为微小的放射性痕迹能够影响高灵敏度实验的结果,而这些影响可能导致数年研究功亏一篑。同样地,数据科学与语言学研究高度依赖训练语料与历史语料库的纯度。若大量训练数据来自模型自身的输出,或者网络上原有的文本被AI改写并广泛传播,研究者面临两类风险。其一是测量与研究的基准被扭曲,语言演变、文化研究或文本分析的"真实"样本被不可察觉地替换。其二是技术上的"自我增强"可能导致模型质量下降的担忧,学界称之为"模型坍塌"(model collapse),即模型在长期以自身产出为训练数据时逐步丧失与现实世界多样性和复杂性的对应关系。 近年由前Cloudflare高管John Graham-Cumming发起并维护的一个名为lowbackgroundsteel.ai的网站便是这种担忧的产物。
他将"低背景"概念搬到数字领域,建立了一个指向未被AI污染或在ChatGPT出现前就已存在的文本、影像与代码的索引。这些资源包括2022年8月之前的维基百科数据转储、古腾堡计划(Project Gutenberg)中公有领域的书籍、美国国会图书馆的照片档案、以及GitHub的北极代码库快照等。通过这种方式,倡导者希望把这些素材作为"前AI时代"的时间戳,保存供未来研究者验证、比较与训练之用。 对数据与文化史学者而言,保存前AI素材具有明显的学术价值。对语言学家而言,语料中的口语演变、俚语的传播路径以及特定词汇意义的漂移都是研究重点。若这些语料在AI泛滥后被替换或大量混入AI生成文本,研究将难以区分什么是人类真实表达、什么是模型模仿的产物。
对技术开发者而言,保留干净的训练集可作为基准集用于衡量模型性能、防止训练数据中出现"自我循环"。对文化与历史研究者而言,早期互联网的文风、摄影风格以及代码风格都可能成为解析数字时代变迁的重要证据。 然而,把"前AI内容"当作稀有珍品收藏并非没有争议。一方面,技术史有足够的先例说明"稀缺解决方案"往往随时间变得不再必要。低背景钢在冷战期间是必需,但随着核试验减少和技术进步,其稀缺性逐步降低。同样的,或许随着更好的数据溯源技术、内容鉴别工具和模型训练方法出现,前AI材料的独特价值会降低,研究界依然可以在混合数据中提取真实信号。
另一方面,保存这些资源也会带来实际的成本与伦理问题。谁来决定哪些内容值得保存?文化多样性如何被代表?一些群体或语种可能在早期互联网中本就记录稀少,过度优先收集主流语料将加剧偏差。 技术上可行的保存与验证手段成为关键话题。最直接的做法是时间戳与加密存证,亦即在某个明确的时间节点对数据进行哈希并公开存证,保证其在之后未被篡改。所谓"加密方舟"或"cryptographic ark"的构想正是将数据的数字指纹与时间绑定,作为未来核查的凭证。除此之外,机构级的冷存储与离线备份也能避免被网络上的AI抓取或污染。
例如把重要语料存放在不对外开放的档案库、使用严格许可与访问控制、并保存详细的元数据说明其来源与创建时间。许多学术机构、图书馆及代码库已经在实践类似策略,例如GitHub的北极代码库项目将重要开源代码长期保存于北极的密封库中,成为未来研究者查验原始代码风格与项目历史的资源。 内容鉴别技术亦在快速发展。这些技术包括利用模型检测模型生成文本的特征、语用学分析以识别不自然的语篇连贯性、以及对图像进行取证分析来判断是否经过 AI 风格迁移或合成。然而,这些方法并非万无一失,随着生成模型的不断提升,所谓"鉴别器"往往被更强大的生成器攻破。因此,简单依赖检测工具不能替代良好保存与来源认证机制。
更稳妥的策略是多管齐下 - - 结合时间戳、来源信任等级、人工审查与自动化检测,共同建立一套可审计的数据保存体系。 在政策与伦理层面,保存前AI内容也引发了版权与隐私问题。许多早期互联网内容并未明确授权用于长期保存或再分发。对个人博客、社交媒体帖子或独立艺术作品进行采集与归档,需要处理作者许可、个人隐私权利以及潜在的撤回请求。图书馆与档案管理机构在这方面有成熟的实践与伦理规范,但面对以算法为中心的新挑战,现有法律框架可能需要更新,以明确如何在尊重创作者权益的同时保存重要文化记录。 另一个不能忽视的问题是选择与代表性。
若保留工程主要由发达国家或英语语料主导,全球文化多样性将被进一步边缘化。许多语种与文化的在线内容在数量上本就较少,若不刻意保存并赋予特殊关注,它们可能在"前AI资料"中被淹没。因此,任何保全计划都应包含多样性策略,主动采集不同区域、不同语种与不同媒体形式的资料,以免让未来的历史学家只能看到偏向少数文化的数字档案。 另一方面,也有人主张与AI共生而非对抗。近年来的研究显示,若能恰当混合合成数据与真实数据,合成数据反而能在某些情境下提升模型的鲁棒性与泛化能力。Gerstgrasser等人在2024年的研究指出,模型坍塌并非必然,只要合成数据以增补而非替代的方式加入,并配合优良的筛选与标注标准,AI产出可以作为训练资源的一部分。
这提醒我们,保存前AI素材的目的并不是彻底阻断AI的发展,而是为科学研究、模型基准与历史记忆保留可信的参考点。 那么普通读者与小型机构能做什么?对于关心文化保存的人来说,首先是意识到数字内容的易逝性与污染风险。保留本地副本、导出重要社交媒体档案、使用开放许可或明确授权以便未来保存,都是可行的个人层面行动。学术界与非营利组织则可以合作建立公共时间戳库、共享保存经验与工具、并申请对少数语种与边缘文化的优先采集项目。企业层面需要思考数据采集与共享的政策,明确对外开放内容的许可范围,并在服务条款中加入可持续保存与溯源的考虑。 未来十年,数字保存领域可能出现几条主要发展路线。
一条是以加密存证为核心的时间胶囊式保存,强调原始性的可验证性,适合用于科学基准与法律证据。另一条是以多源融合为特征的混合档案,既保存原始人类创作,也保存AI生成的演化样本,供研究者研究生成技术如何影响文化表达。第三条是法规与标准的完善,通过法律手段规范训练数据来源、要求大模型在训练数据中标注可追溯的来源,并为重要公共文化资产制定保存义务。 从历史角度看,人类文化的保存一直是技术与社会力量相互作用的结果。印刷术、摄影术、录音与互联网都在不同阶段改变了记忆的保存方式。如今生成式AI带来的挑战与机遇同样巨大。
像低背景钢保护科研仪器一样,前AI资料的保存不是对抗技术进步的怀旧,而是为科学研究、文化史学与社会记忆提供一个清晰可查的基线。无论未来我们选择哪个路线,透明、包容与可验证将是任何保存计划成功的关键。 在这个过程中,公众参与与跨界合作尤为重要。博物馆、图书馆、大学、科技公司与立法机构需要共同制定操作性强的保存标准,并把代表性、公正性与可访问性放在首位。只有这样,所谓的"低背景数据"才能真正成为一笔公共财富,而不是少数人或机构的私有珍藏。 回到最初的比喻,曾经的低背景钢最终成为一种历史遗产,因技术进步其特殊地位逐渐弱化,但它在关键时刻曾保全了科学研究的可信性。
同样的决策逻辑应在数字时代被继承:保留、标注并验证那些在AI浪潮来临之前的文化与科学记录,为未来留下一条清晰的时间线。无论AI如何进步,拥有可验证的历史基线对于理解文化演变和技术影响都将是不可替代的资源。 。