加密钱包与支付解决方案 加密初创公司与风险投资

Meta Llama 3.1展现惊人记忆力:能够重现42%的《哈利·波特与魔法石》内容

加密钱包与支付解决方案 加密初创公司与风险投资
Meta's Llama 3.1 can recall 42 percent of the first Harry Potter book

最新研究揭示Meta推出的Llama 3.1语言模型在记忆与复述经典著作方面的强大能力,其对《哈利·波特与魔法石》文本的回忆率高达42%,引发版权法领域的重要讨论与关注。本文深入解析该现象背后的技术细节及其对人工智能版权法律的潜在影响。

近年来,生成式人工智能(Generative AI)技术迅猛发展,尤其是在大型语言模型(LLM)领域,Meta推出的Llama 3.1语言模型因其卓越的性能成为业内关注热点。日前,斯坦福、康奈尔和西弗吉尼亚大学的计算机科学家和法律专家联合发布的一项研究揭示,Llama 3.1 70B模型能够准确回忆并复述《哈利·波特与魔法石》全文约42%的内容。这一发现不仅展示了模型在文本记忆上的强大能力,也在版权争议中掀起波澜。F多年来,涉及训练数据版权的相关诉讼日益增多。出版商、新闻媒体、程序代码及摄影作品的版权持有人指控美国多家AI公司未经授权使用受版权保护材料训练模型,从而引发了法律诉讼和行业辩论。尤其是在2023年末纽约时报起诉OpenAI一案中,原告提交了多处GPT-4可重复生成其文章原文的证据。

对此,OpenAI回应称该情况属于边缘性行为,且正积极采取措施加以解决。然而,前述团队的新研究结果挑战了“只属于边缘情况”的说法。研究团队以Books3数据集中的多本图书为例,评估了五款广泛应用的开源权重模型的文本复现能力。其中包含三款Meta旗下的Llama模型,以及微软和EleutherAI发布的各一款模型。结果显示,Llama 3.1 70B模型在复述书中50个连续词的概率上遥遥领先,特别是在《哈利·波特与魔法石》的文本复现上竟达到42%,远高于Llama 1 65B模型仅4.4%的复原率。研究还发现,Llama 3.1 70B对众多流行经典著作如《霍比特人》和乔治·奥威尔的《1984》等均表现出较高的记忆复现率,而对较为冷门的作品如理查德·卡德里2009年出版的《恶魔山姆·斯利姆》则仅有0.13%的复原率。

专家指出,在不同模型之间,尤其在受欢迎程度不同的书籍处理中,文本记忆的差异非常明显。这表明模型的训练数据及训练方法在很大程度上影响了其内容记忆程度。从技术层面而言,研究人员通过计算模型对连续词组的生成概率来衡量记忆力,避免实际生成大量文本的高昂资源消耗。具体实现方法是以文本部分的前50个词作为提示,计算后续50个词逐一生成的概率乘积。该方法严格限定了所谓“记忆”的标准:50个词连续复述的概率要超过50%,意味着模型对每一个词的预测概率需达到98.5%以上,且必须是完全准确的匹配。此标准本身就极其苛刻,如果包括几处词汇偏差,那么实际记忆量将更高。

为什么Llama 3.1对《哈利·波特与魔法石》能达到如此高的记忆量?研究者推测该模型接受了高达15万亿个词语的训练,是早期Llama 1 65B使用的1.4万亿词语的十余倍。如此庞大的训练语料量极可能导致对部分文本的高频反复暴露,进而提升模型对这些文本的“过度记忆”。此外,可能存在对书籍本体之外的辅助训练资源,如在线读者评论、粉丝论坛甚至学生论文等附属材料的采纳,这些资源中往往直接引用或讨论《哈利·波特》等畅销书,从而间接加深了模型对其文本的熟悉度。上述发现对版权法领域带来了重大挑战和启示。现有的AI相关版权诉讼常围绕三种理论展开:首先,训练行为本身即构成侵权,因为其涉及对受版权保护作品的复制存储;其次,模型通过训练数据生成的权重可能构成对原作品的“衍生作品”;第三,模型生成侵犯版权的具体文本行为同样有侵权可能。传统观点认为,训练中复制受版权保护材料属于合理使用范畴,类似于谷歌图书计划中对图书资料的处理。

但Llama 3.1能精确复述大量长文本,使这些合理使用辩护变得不那么稳固。如果语言模型可以输出完整或近完整的章节,法官在审理版权案件时可能更趋向质疑这些使用是否真构成变革性创新,还是仅仅利用了原作品的商业价值。更令人担忧的是,模型记忆大量文本数据可能意味着其权重参数实际上存储了部分完整作品片段,法律上或被视为“衍生作品”,这是判定侵权的关键所在。谷歌图书案中,谷歌因未向用户公开完整书库得到判决支持,但开放权重模型如Llama 3系列向更多研究者开放,可能面临更严峻的版权审查压力。另一方面,模型权重的开放也推动了学术界对模型行为的透明研究,这对保障技术发展与法律规范之间的平衡十分关键。有观点强调,维护开放授权的科研生态本身是一种公共服务,法官在判案时应考虑这种社会价值。

与此同时,科技行业领导者越来越倾向于将模型权重闭源,并通过服务器端过滤机制限制模型输出,有效减少版权侵权内容的传播,同时也使外部研究者更难以验证模型的记忆程度和潜在侵权风险。如此局面下,开放权重模型和闭源模型之间的法律风险呈现动态平衡,既有法律挑战,也存在行业自律的空间。值得注意的是,该项研究还引发了针对大规模模型训练数据透明性及版权合规性的广泛讨论。AI公司如何在保持技术领先的同时,确保训练语料来源合法、避免大规模“照搬”受版权保护作品,已成为业内共识。未来,针对模型记忆模型影响版权保护的规范制定、技术改进和法律判例预判都将成为重中之重。总结来看,Meta Llama 3.1在复述《哈利·波特与魔法石》中的高达42%的文本表现,体现了大型语言模型在记忆与学习能力上的跨越式提升,同时也引发了关于版权合理使用及法律责任的新一轮深入探讨。

随着技术不断迭代,AI训练与版权保护将持续交织,期待业界、法律界与学术界能够共同构建更加合理、透明与公正的人工智能发展环境。

加密货币交易所的自动交易 以最优惠的价格买卖您的加密货币 Privatejetfinder.com

下一步
UK investigation into 4chan and its compliance with the Online Safety Act
2025年09月04号 19点23分41秒 英国调查4chan网站是否遵守《在线安全法》引发关注

深入解析英国对知名匿名论坛4chan的调查,探讨其在《在线安全法》框架下的合规性及网络安全风险,揭示监管挑战与未来发展趋势。

Show HN: Tool shows why 1.3B people can't use your website
2025年09月04号 19点24分29秒 了解为何13亿人无法使用您的网站:探索数字无障碍的重要性与未来趋势

针对全球13亿身障人士无法顺利访问网站的现状,深入分析数字无障碍设计的意义、障碍类型及其对企业和社会的影响,探讨如何通过创新技术和人性化设计打造真正包容的互联网环境。

Is SoundHound AI a Buy?
2025年09月04号 19点25分54秒 SoundHound AI投资价值深度解析:值得入手吗?

探讨SoundHound AI的公司背景、股价波动及市场前景,帮助投资者全面了解该人工智能领域公司的投资潜力与风险。

 How to stake Solana (SOL) in 2025: A step-by-step guide for beginners
2025年09月04号 19点27分10秒 2025年新手指南:如何高效质押Solana (SOL)赚取被动收入

深入解读2025年Solana(SOL)质押的最新方法与策略,帮助初学者全面了解Solana质押的优势、操作流程及注意事项,实现资产稳健增值和参与网络治理。

2 Stocks Down 23% and 26% to Buy Right Now
2025年09月04号 19点28分28秒 2025年股市抄底良机:两只跌幅23%和26%的优质潜力股解析

在2025年上半年,市场波动加剧,为投资者带来了资本布局的绝佳时机。本文深入分析了两只近期股价大幅回调的优质股票,探讨其核心竞争力及未来增长潜力,帮助投资者抓住低价买入的投资机会,实现资产稳健增值。

Taiwan tightens semiconductor export controls on Huawei and SMIC amid US-China tech rivalry
2025年09月04号 19点29分38秒 台湾加强对华为与中芯国际半导体出口管控,凸显美中科技博弈的关键态势

台湾近期加大了对华为和中芯国际的高科技出口控制,反映出在全球科技竞争格局下美中两国在半导体领域的紧张对抗和战略角力。此次管控强化不仅影响中国产业链布局,也在全球半导体供应链中引发广泛关注。

AI is reinventing reality. Who is keeping it honest?
2025年09月04号 19点30分23秒 人工智能如何重塑现实:谁在守护真相?

随着人工智能技术的迅猛发展,现实世界正经历前所未有的变革。然而,在AI不断影响我们认知和生活的同时,信息的真实性和准确性成为亟需关注的问题。探讨人工智能如何改变现实,以及那些致力于保持AI诚信与透明的力量,对于理解未来社会至关重要。