随着2024年的到来,互联网和人工智能领域的重大变革正在重新定义我们对数据使用和版权保护的理解。人们纷纷质疑:曾经被誉为内容共享和创新基石的"公平使用"原则,是否已经进入了它的"黄金时代"的末期?这种疑问在内容创作者、网站运营者以至整个数字生态系统中,引发了深刻的反思。技术的进步让人工智能能够访问、分析和生成基于海量网络数据的内容,但传统的版权保护和公平使用条款似乎正面临巨大的压力和挑战。首先,有必要澄清两个经常混淆的概念:网络爬虫(Web crawlers)和网络数据抓取(Web scraping)。网络爬虫是互联网搜索引擎和其他服务用来定期访问网站,从而建立索引的自动程序。它们通常遵守robots.txt文件中网站所有者设定的访问规则,限制访问频率以避免服务器过载。
而数据抓取则往往指未经授权的自动化内容下载行为,常常无视robots.txt限制,甚至伪装成合法爬虫骗取网站数据,从而引发服务器负载过重和隐私侵犯的风险。数据抓取的恶意性质直接影响到网站和创作者的版权利益,而爬虫则更多被视为服务生态系统的正常组成部分。长期以来,搜索引擎诸如谷歌和必应采取了一种"公平共赢"的策略,通过合理索引与超链接为网站导流,获得数据同时给予内容回馈和曝光,这种基于自愿遵守robots.txt规定的安排,成为互联网信息共享的基础。公平使用原则在这里起到了法律支撑的关键作用,使得搜索引擎和第三方能够合理利用网络公开信息,而不侵犯版权。然而,近些年随着大型语言模型(LLM)和生成式人工智能的兴起,这一微妙的平衡正被打破。谷歌早在2005年就开始利用网络数据增强搜索体验,2015年推出的"特色片段"功能进一步改变了内容展示形式。
如今,人工智能搜索结果常常被置于传统自然搜索结果之前,且这些AI模型极有可能是基于此前通过网络爬虫收集的大规模网页数据训练的。这种做法不仅谷歌,OpenAI、微软、Meta和Anthropic等各大科技巨头亦纷纷效仿,利用像Common Crawl这样的公共网络爬取数据仓库,为人工智能训练提供海量素材。Common Crawl自称是非盈利的,并向研究人员开放数据,但其数据资源被商业化利用于人工智能模型,激烈的技术竞赛也带来了数据采集和使用"越界"的风险。更令人关注的是,这些大公司近年来开始减少甚至隐瞒其用于训练的具体数据来源,似乎在规避责任的边缘徘徊。面对创作者和网站业主日益觉醒的版权意识,越来越多的机构开始尝试通过法律诉讼、内容授权协议及更新robots.txt设置来限制人工智能模型对其内容的使用。其中谷歌在2023年9月引入了"Google-Extended"新型爬虫以区分搜索爬虫GoogleBot和专门为AI训练设计的爬虫,允许网站通过robots.txt分别设置访问权限,令网站管理员可选择是否支持内容用于人工智能模型增强。
这被视为该领域首个针对AI爬虫的官方解决方案。然而,微软必应和OpenAI等尚未完全采取类似措施,尤其是微软未公开说明其是否允许必应爬取数据用于训练AI,包括与OpenAI合作的GPT模型。不少网站开始明令禁止新的AI爬虫访问,比如Indeed明确阻止了OpenAI的GPTBot、谷歌的Google-Extended及Common Crawl的CCBot等。然而,部分据称无视robots.txt的爬虫依然活跃,成了数字内容保护的最大威胁。新闻行业作为版权意识最强烈的领域,积极行动阻止AI爬虫。根据最新数据显示,全球超过2000家新闻网站中已有显著比例明确在robots.txt中拒绝了某些AI爬虫的访问请求,但诸如政府与非营利组织等机构普遍反应较为迟缓,或许对AI大规模采集和商业化利用内容的风险认识不足。
由此可见,一个分水岭正在形成:大网站和出版商通过谈判达成许可协议并拒绝无授权数据抓取;而大量小型独立网站则因缺乏资源和谈判能力,难以从新兴的AI红利中受益,甚至可能因流量大幅下降而陷入困境。版权法律的滞后性成为这一现象加剧的催化剂,美国的重要版权诉讼如纽约时报对微软和OpenAI的案件备受关注,预期法院判决将对全球生态产生深远影响。但业界普遍预计这类案件往往以庭外和解告终,私下达成版权授权协议成为事实上的主流做法。与此同时,国际标准化组织W3C正在关注人工智能对互联网的影响,发布相关报告并征求意见,试图建立技术及规范层面上的防护和监管机制,但标准制定的速度远远追不上法律和商业的变迁,无法即时为内容保护和数据使用提供有效保障。在这纷繁复杂的环境中,Mojeek等专注于提供传统搜索引擎服务的公司坚持尊重版权及robots.txt规则,其理念是作为"搜索引擎,而非答案引擎",拒绝将内容用于未经授权的AI训练,这在一定程度上弘扬了公平使用精神的核心价值。随着网络生态的持续演进,网络爬虫与数据抓取的界限更加模糊,公平使用的定义也面临重新审视。
内容创作者如何在保护版权的同时促进信息传播?科技企业如何平衡数据利用与伦理责任?用户又应如何理解和参与这一变革?这些问题远未有定论,但唯一确定的是,公平使用的黄金时代正在经历最严峻的考验,数字版权保护的新篇章正在书写中。 。