近年来,随着人工智能技术的迅猛发展,特别是大型语言模型(LLM)在自然语言处理领域的突破,越来越多研究者开始借助这些工具辅助学术写作,尤其是在文献引用环节。ArXiv作为全球最大的预印本平台之一,成为观察这一趋势的理想窗口。2025年的最新研究表明,LLM生成的虚假或错误引用现象正在逐渐增多,虽然总体比例仍较低,但增长速度令人担忧。这不仅反映出技术本身的局限,也折射出现代科研环境中压力与便利并存的现实。ArXiv上的引用分析揭示了从2020年至今的变化轨迹。通过下载并解析数以万计的arXiv论文PDF和元数据,研究人员发现在2025年尤其是疫情后期,所谓"幻觉引用"开始明显增多。
这些引用通常表现为引用了错误的作者、错误的标题,甚至链接指向完全无关甚至不存在的论文。例如,一些文献引用作者列表与实际论文完全不符,或者引用的arXiv编号对应的论文内容与引用内容毫无关联。人工智能工具如Deep Research等助长了这一现象,因为它们会在生成参考文献时混淆真实信息,生成听起来合理但实际上不存在的引用。尽管目前这类错误引用只占引用总数的极少部分(大约0.025%),研究者们一致认为这远未反映真实情况。这是因为现有检测方法局限于比对arXiv数据库中已知的标题匹配,无法识别完全虚构或者来源于非arXiv平台的错误引用。此外,人工智能生成的引用错误具有传播性,一旦某篇论文包含虚假引用,后续研究可能重复错误,加剧问题。
人工智能生成引用的真实性问题产生的根源有二。首先,技术本身尚未成熟,LLM在生成参考文献时缺乏对数据准确性的严格校验机制,导致"幻觉"现象频繁出现。其次,学术界当前的科研压力使得部分研究者倾向于依赖自动化工具以提高写作效率,却忽视了对生成内容的核实和把关。更严重的是,一些研究者明知有误仍对引用疏于审查,导致"学术懒散"现象加重。文章的深入数据挖掘不仅揭示了趋势,也明确了部分重点"受害者"。顶尖级学者如Alexei Efros、Oriol Vinyals等由于其高引用量,成为了"失去"引用的主力群体,也体现出错误引用对高影响力论文的相关影响。
与此同时,若干论文中大量虚假引用集中出现,被称为"重灾区",显示部分作者可能对AI依赖过度,缺乏必要的引用审核。这种现象到底意味着什么?从表面数字看,错误引用比例极小,似乎不足以引起广泛关注。但技术发展和应用扩展的速度令问题呈指数增长趋势。更重要的隐患在于,这种引用错误稍纵即逝,若没人及时纠正,可能对学术成果的传播与承认机制造成深远影响,甚至威胁学术诚信的基础。如何应对这场挑战?学界未来必须加强对AI辅助论文写作的监管,推广更健全的验证体系,确保所有引用均经过严格核查。自动化工具应具备更精准的事实校验功能,避免"智能幻觉"的出现。
同时,研究人员应提升信息甄别能力,不能盲目依赖生成工具,必须承担起严谨的学术态度。长远来看,AI技术仍是推动学术写作创新的重要力量。解决引用虚假问题的关键在于平衡技术便利与内容准确,既要发挥LLM的高效助力,又要防止学术质量被牺牲。教育培训、制度建设、技术改进和社区共治将成为综合应对这一新兴问题的基础。随着时间推移,是否能形成一套成熟的机制,让LLM生成的引用不再是潜在隐患而是真正可靠的学术资产,值得持续关注。ArXiv作为开放预印本平台,将继续扮演监测和引导变革的前沿角色。
未来研究应深化对LLM生成内容的可信度分析,开发更智能的检测工具,同时加强跨平台数据共享,为全球科研生态打造健康、可信的数字文献环境。大型语言模型正在彻底改变科研写作的面貌,其带来的挑战同样需要全社会共同关注,携手探索解决之道。唯有如此,现代学术研究才能既享受技术红利,又守护学术根基的纯洁和精准。 。