近年来,人工智能(AI)技术的迅猛发展对数据的需求呈指数级增长,尤其是用于训练大型语言模型(LLM)和其他生成式AI系统的文本、图像和多媒体内容。伴随这一趋势,网络机器人(bots)作为自动化采集工具,以惊人的速度和数量涌入各类网站,疯狂抓取数据。这场数据采集热潮不仅给商业网站带来了挑战,更让全球各地的文化机构、图书馆、美术馆和档案馆(简称GLAM机构)感到巨大的压力和隐忧。许多文化资源丰富的网站因应对频繁的机器人访问而服务器负载过重,甚至出现访问性能下降或完全宕机的情况。GLAM-E实验证明,机器人采集数据需求激增的背后,不仅仅是单一机构或少数玩家的行为,而是整个AI产业对训练数据的渴求所导致的普遍现象。这些机器人往往无视网站运营方的服务器资源限制,对在线数字收藏资源构成严重威胁。
相比于传统搜索引擎的网络爬虫,AI训练数据采集机器人访问频率更高,访问深度更广泛,有的甚至会绕过robots.txt文件的指令,突破自主设定的访问规则,使网站防护难以奏效。GLAM-E实验的数据调查显示,大多数文化机构经历了流量激增,其中绝大部分流量被认定与AI训练数据机器人有关。即便机构尝试通过技术手段抵挡异常流量,例如启用内容访问限制、强化网络防火墙或采取云服务商提供的反机器人解决方案,这些措施仍然难以从根本上解决问题。更加棘手的是,这类网站往往需要为公众持续开放数字资源,设置复杂的访问门槛与授权机制可能与其公益性目标背道而驰,影响用户体验和资源共享。更进一步讲,这种数据采集机器人所引发的技术和运营压力还带来了经济负担。由于服务器带宽、存储和运维需求增加,文化机构不得不投入更多资金以保证系统的稳定运行,然而多数非营利机构的资源并不充足,长期来看存在投入和收益失衡的风险。
学术界与行业专家呼吁AI公司的数据获取行为应更加负责任和透明,应当与数据提供者建立合理的合作机制,明确数据使用范围,同时避免过度抓取造成的资源浪费。此外,业内也在探索包括项目合作、数据授权许可、技术合作开发反采集工具等多元化应对方案,以促成公平、可持续的数据生态环境。与此类似的报告还揭示,开放访问存储库、在线知识平台甚至开源社区都遭遇了类似的机器人骚扰问题。这说明问题的普遍性和复杂性,只有多方协同努力才能构筑有效的防护墙,为数字文化遗产的保护与弘扬奠定基础。面对这一挑战,文化机构除了依赖技术升级和组织策略优化,更需要政策支持与社会共识的建立,使互联网治理体系更加完善。在全球数字化和AI浪潮的推动下,文化资源的数字转型日益加速,保护这些资源的数字生命力成为社会关注焦点。
推动立法明确AI数据采集的边界义务,从国家层面规范数据抓取行为,有助于明确各方责任,保障数字内容的合法使用。与此同时,公众认识的提升也至关重要。增强对数字资源使用权利和保护需求的理解,有助于形成良好的网络信息生态环境。作为个人或机构,在使用AI技术时,应关注数据来源的合法合规性,尊重原创版权与隐私权益,推动AI健康可持续发展。综上所述,机器人对网站数据极度饥渴的现象已上升为全社会亟需重视的问题。文化机构作为数字内容的守护者,其资源被过度采集的现状不仅影响自身运营,更波及到知识传承与文化多样性维护。
只有通过产业自律、技术创新、政策法规和公众教育多方协同,才能实现AI数据需求与文化资源保护之间的良性平衡,促进AI技术与文化事业的和谐共生。