随着人工智能技术的飞速发展,语言模型已经成为人们日常生活、工作和学习的重要助手。然而,在实际应用中,许多用户会发现这些模型有时会"自信满满"地给出错误答案,甚至是毫无根据的编造内容。OpenAI近期公布的一项研究成果,首次公开承认这种看似"虚构"的行为实际上源自模型的训练过程和评估机制的根本性缺陷。该研究不仅为AI模型出现"幻觉"(hallucinations)的本质提供了科学解释,也为今后优化训练策略指明了方向。语言模型为何喜欢"猜测"而不是承认无知?OpenAI研究团队联合佐治亚理工学院教授Santosh Vempala共同撰写的论文《Why Language Models Hallucinate》详细剖析了语言模型训练中的核心矛盾。模型在预训练和微调阶段通常接受的是大量带标签的文本数据,训练目标是最大化回答的准确率。
然而令人意想不到的是,传统的评估指标和考试方式往往惩罚模型的不确定性,鼓励其为了给出一个"答案"而非"空白"选择。这种激励机制使得模型学会在面对未知或无充足信息支撑时,也要给出一个听上去合理但实则错误的答案。换句话说,宁愿"胡编乱造"也不愿回答"我不知道"。OpenAI在实验中曾尝试让模型回答其研究人员Adam Tauman Kalai的生日,但模型连续给出了三个错误答案。研究人员指出,这正是训练理念在起作用:由于生日等事实信息有时只在训练数据中出现一次,模型无法从中学习到可信的模式,因而只能凭借之前见过的相似数据"猜测"。"多数主流评估体系反而在奖励这种'幻觉'行为。
" 该论文写道。评估体系的缺陷加剧问题除了训练目标外,研究还发现评估体系本身构成了助长"虚构答案"现象的温床。当前许多评测方式类似于人类的标准考试,以准确率或通过率作为唯一标准,这种二分法加重了模型的推测行为。与此相反,人类从学校学习知识之外,更会在社会实践中理解表达不确定性和承认无知的价值。然而,语言模型目前还没有这样的环境或激励机制来培养这种"谦逊"。OpenAI认为,正确的评估方法应当奖励模型以"合适的不确定表达"来回答问题,而不是单纯鼓励其填空或猜测。
训练数据的局限和真实性难题语言模型的训练基于海量数据,其中不可避免地掺杂着错误、噪声和少量数据不足的情形。理想的情况是训练数据完全准确且覆盖所有相关事实,但现实中这几乎不可能实现。论文指出,模型的"幻觉率"至少和训练数据中仅出现一次的事实项的比例相当。比如有20%的生日信息在训练数据中只出现过一次,那么至少有20%的生日查询结果可以预期会出现错误回答。因此,靠优化训练集纯度根本无法根除此类问题。OpenAI也提及,一些训练后的微调阶段技术可能反而加剧了问题,因为为适应现有评估指标,模型被驱使"冒险猜测",以便在测验中获得更高分数。
这种情形反映了人工智能系统评估与真实应用需求之间的脱节。向更谦逊的语言模型转型未来,OpenAI提出感谢主流评估体系的激励机制仍需改进,并鼓励业界探索新的训练与评估方式。通过"奖励适当表达不确定性",或许能显著降低模型幻觉率,提高其可靠性和用户信任。值得庆幸的是,OpenAI在其最新发布的ChatGPT-5中,试图调整训练方案,让模型能够更频繁地表示"不知道"或"无法确认",这代表着从根本上反思并修正模型训练理念的积极尝试。尽管如此,目前版本的模型依然存在给出错误答案的情况,表明技术仍处于演进阶段。仅靠技术手段还不够,用户和开发者也需提升对语言模型回答准确性的认知,理性看待AI所提供信息。
人工智能模型"胡编乱造"的现象并非简单的故障,而是源于深层激励机制和数据限制。随着更多科研投入和理念更新,未来的语言模型有望变得更"诚实"更谦逊,更加贴近人类交流的真实特点。总结来看,OpenAI的公开坦言无异于人工智能研究界的一次自省和进步。辉煌的AI表现背后,仍亟需面对如何让模型"勇敢承认无知"的挑战。只有在训练和评估两方面做出创新,语言模型的真实价值才能更好地释放,让人与机器的沟通更加高效、透明和可信。随着人类对AI理解的加深,未来的智能助手不只是博学多才,更将学会以谦逊和诚实赢得用户的信赖,从而真正为社会创造福祉。
。