近年来,大型语言模型(LLMs)如ChatGPT和Google Gemini的快速发展,为人类获取信息、解决问题提供了前所未有的便利。这些模型能够模拟人类语言,回答各种复杂问题,甚至生成富有创造性的文本。然而,尽管它们性能强大,如何衡量这些AI模型对于自身答案的置信度,尤其是在存在不确定性的情况下,成为了学术界与公众关注的焦点。置信度判断,即模型对其回答正确性的主观评估,是人机互动中至关重要的信息,直接影响用户对AI建议的信任和决策品质。为此,一系列研究通过实验测试了多款主流LLMs在多种认知任务中置信度判断的准确性,将其与人类的表现进行了对比,揭示了二者在思维模式和自我监控上的异同。研究中区分了两种主要不确定性类型:一种是“偶然不确定性”(aleatory uncertainty),即未来事件预测中固有的随机性;另一种是“认识不确定性”(epistemic uncertainty),指因缺乏信息或知识而导致的未知。
多个实验涉及NFL比赛结果预测、奥斯卡奖项预测、绘图识别、常识问答和机构相关事实查询,全面涵盖了这两种不确定性的场景。在偶然不确定性领域,研究发现LLMs的置信度判断绝对和相对准确度与人类相当,甚至在某些情况下略优于人类。例如,ChatGPT在NFL赛果和奥斯卡预测任务中表现出较为精准的自我校准能力,置信度与实际表现匹配较好。相较之下,人类参与者则普遍表现出轻微的过度自信或低估情况。同时,LLMs在区分不同预测结果的置信度方面(即相对准确度)也与人类不相上下,表明它们能够在一定程度上识别哪些答案更可靠。然而,在认识不确定性的任务中,如Pictionary游戏和复杂的事实性问答,LLMs与人类表现出更多差异。
虽然LLMs在某些题目上能够提供较为合理的置信度判断,但它们普遍缺乏根据过往经验调整置信度的能力。人类通常能在完成任务后,通过记忆和感知调整自身的自信水平,表现出显著的经验学习效果;而大多数LLMs在给出回顾性置信度时反而趋向于更大程度的过度自信,未能体现出对先前表现的反馈调整。这种现象被认为源于LLMs缺乏对内在感觉和认知过程的直接访问权限,即缺少人类所拥有的“记忆性线索”,导致其置信度判断更多依赖统计模式和语言训练数据,而非真实的反思能力。有趣的是,在不同LLMs之间,表现存在显著差异。以Claude系列模型为例,其置信度判断的绝对准确度往往优于人类,而ChatGPT和Google Gemini则表现波动较大。此外,研究还揭示了所有模型(包括人类)在置信度评估时倾向于过度自信的普遍趋势,这表明无论是自然智能还是人工智能,都存在对自身判断能力的偏差。
此外,通过项级分析,研究比较了不同模型和人类在具体题目上的难度感知和过度自信表现,发现某些领域人类与LLMs有较高的认知和元认知一致性,而在另一些领域则差异明显,进一步说明二者的认知策略和置信机制存在不同。总体来看,LLMs的置信度判断虽未全面超越人类,但在多个场景下表现出与人类相当甚至更佳的能力,尤其是在处理偶然不确定性任务时尤为突出。与此同时,LLMs缺乏经验学习的元认知能力,限制了其在动态环境中的自我调整和自我完善能力。研究团队指出,这可能要求未来的模型开发不仅关注预测结果的准确性,更要提升模型对自身不确定性的有效表征与动态更新能力。随着AI技术的不断演进,理解和提升大型语言模型的元认知能力将极大地推动其在辅助决策、教育、医疗等多领域的可靠应用。同时,用户对AI置信度的理性认知和合理信任也依赖于对这些能力的深入了解。
未来研究可聚焦于探索如何结合内建统计置信度与环境反馈改进LLM的置信度表达、研究不同提示工程策略对置信度改善的影响,以及针对特定领域专家知识的置信度校准方法。此外,扩展至更多样化模型及复杂任务环境,评估AI自我监控能力的提升空间,也是重要的研究方向。终究,虽然大型语言模型在置信度判断上已有显著进步,但人类独特的感知经验和反思过程,目前尚难以被完全复制。通过跨学科的协作研究,正在逐步揭示AI自我认知的潜力边界,推动构建更智能、更可信赖的人工智能系统。