近年来,人工智能技术的迅猛发展极大地改变了信息的生产和分发方式。特别是大型语言模型(LLM)和生成式AI应用的爆炸性增长,使得AI企业大量收集并利用互联网内容进行训练。然而,这种“数据吸取”行为引发了广泛争议,版权内容未经授权的使用和个人隐私数据的滥用问题日益突出。对此,美国参议员乔希·霍利(Josh Hawley)和理查德·布卢门撒尔(Richard Blumenthal)共同提出了颇受关注的《AI责任与个人数据保护法案》(AI Accountability and Personal Data Protection Act)。该法案旨在通过立法形式,规范AI企业在训练过程中的数据采集行为,切实保护内容创作者和数据所有者的合法权益。立法的核心在于,明确AI企业在使用版权作品和个人数据进行训练时,必须获得数据所有者的“明确事先同意”。
这意味着,从大型媒体公司到个人博主,所有版权内容创作者均可依法阻止Google、Meta、OpenAI、Anthropic等科技巨头未经许可使用其作品进行AI训练。AI技术厂商长期以来依赖“合理使用”原则来辩护其数据采集行为,认为训练AI模型属于学术研究或新闻报道范畴,因而享有法律豁免。然而,近期法院判例和监管声音逐渐对这种解释提出质疑。去年,部分作者针对Anthropic未经授权使用其作品训练Claude AI提出诉讼,却被法院驳回,令创作者权益受到严重挑战。霍利参议员对此表示强烈不满,称AI公司“野蛮掠夺美国人民成果”,让艺术家、作家等创造者毫无反抗之力。法案并未直接对合理使用条款做出规定,但将版权内容及个人身份信息列为“涵盖数据”,限制未经授权的使用。
同时,法案详尽规定了“明确同意”的标准,要求AI公司在收集任何数据时,需清晰告知数据用途及访问范围,且不得将同意与产品使用权捆绑。用户的授权请求不可混杂在繁复的协议条文中,也不允许仅提供链接跳转解释,必须直接且显著地进行告知。此外,法案还禁止通过仲裁协议剥夺个人起诉的权利,鼓励受害者采取法律行动维护自身权益。涵盖数据范围广泛,囊括设备标识符、IP地址、广告标记、地理位置、生物识别信息、行为数据以及用户画像信息,几乎覆盖了当代数字生活的全部隐私面向。该法律如若通过,将对目前依赖大规模网络内容采集构建AI模型的行业生态产生深远影响。如今,AI公司通过“网络抓取”手段大量采集网页资料、书籍、文章等内容进行训练,以支撑ChatGPT、Google Bard等产品的强大内容生成能力。
然而无序抓取行为也导致出版商和内容创造者面临“流量末日”,广告收益锐减,生计受到威胁。业界曾有分析指出,AI抓取与人类学习方式本质不同,难以简单套用合理使用的传统解释。欧盟议会委托的研究报告明确否定了AI抓取的合理使用地位。美国版权办公室负责人也公开指出,AI抓取已超出合理使用范畴,虽其言论引发争议甚至导致职位变动,但显露出台上政界对于数据权益保护态度的转变。立法过程虽面临诸多挑战,《AI责任与个人数据保护法案》已于7月中旬正式提交参议院委员会,成为监管AI训练数据的关键风向标。该法案的通过可能标志着美国在AI伦理与版权保护领域迈出坚实步伐,在全球AI治理浪潮中占据领先地位。
若未来能将明确同意机制落到实处,不仅能够提升个人数据使用的透明度和自主权,还将催生更有序、更合规的AI产业环境。与此同时,AI公司需加大合法合规投入,调整数据采集和模型训练链条,探索与内容创造者合作的新模式,共同推动AI技术与文化创意产业的良性共生发展。不可忽视的是,AI技术的创新力和潜在效益与数据源的合法性紧密相连,权利人的授权与保护为AI提供了更稳固的法律基石,也激励创新为社会带来更多积极贡献。综上所述,美国新提案对AI数据采集行为加以严格规范,赋予内容创造者和数据所有者切实维权工具,可能成为AI发展史上的重要里程碑。随着AI日益融入人们工作、学习和生活的方方面面,如何平衡技术发展与版权保护、数据隐私的关系,将决定未来数字经济的公平和可持续性。各界应密切关注法案进展,推动构建良好制度保障,为迎接智能时代的挑战奠定法律基础。
。