随着大型语言模型(Large Language Models,简称LLMs)如ChatGPT、Google Gemini、Claude Sonnet和Haiku的迅速崛起,人工智能在信息获取和决策支持领域展现出前所未有的能力。尽管LLMs能够在几乎所有主题上回答各类问题,但其如何评估自身回答的准确度及不确定性,尤为引人关注。元认知中的信心判断,即模型对答案正确性的主观信念,是人类在交流和决策过程中不可或缺的认知工具。而对LLMs而言,信心判断的准确性尚未被充分探究。针对这一关键盲点,研究者们开展了多项系统性实验,试图量化LLMs的信心判断并与人类表现进行比较,从而揭示其元认知能力的实际水平及潜在不足。 大型语言模型的元认知能力本质上反映了它们对自身认知过程的监控与评估能力。
人类在完成任务时往往伴随着对自身表现的信心评级,这种信心判断受到任务难度、经验反馈、以及认知内在感受的共同作用。传统心理学研究强调,人类能基于多种提示信息,包括任务内在特征、环境因素以及记忆线索,形成相对准确和有意义的信心评价。相比之下,LLMs作为高度依赖概率预测的文本生成器,虽能产生语言上的信心陈述,但其背后的统计和认知机制截然不同,缺乏内在的体验感受,特别是记忆希冀等元认知提示。因此,人们亟需评估LLMs在信心判断中的准确性,以及它们是否可像人类一样通过经验优化自身信心水平。 在对信心判断进行量化的过程中,研究者分别考察了绝对准确性(校准程度)和相对准确性(分辨准确率)两个维度。绝对准确性衡量的是模型或个体的整体信心估计与实际正确率的匹配程度,反映是否存在系统性的过度自信或不足。
相对准确性则关注模型能否将较高信心赋予更可能正确的单项任务,体现区分“知道的事”与“不知道的事”的能力。研究利用多样化的实验范畴,包括体育赛事结果预测(如NFL比赛和奥斯卡奖项)、图画猜词游戏、一般知识问答和独立数据集中的大学相关事实,构建了代表不同类型不确定性的任务环境,涵盖了主观概率性的偶然性不确定(aleatory)与知识缺乏性的不确定(epistemic)两种基本类别。 实验结果显示,LLMs总体上展现出与人类相当甚至略优的信心判断准确性。尤其是Claude系列模型,在多项任务中表现出显著优于人类的绝对元认知准确度,表明其对整体任务表现的信心估计具备较高的可靠性。ChatGPT和Gemini模型则呈现出更大波动,部分任务中表现出过度自信的倾向。令人关注的是,所有模型和人类受试者普遍存在过度自信的现象,不过LLMs在某些情况下更为显著。
此外,研究发现人类在经历任务反馈后往往能调整并提升自己的信心判断,即表现出经验驱动的元认知学习能力,反映了对自身表现的动态监控和修正机制。而LLMs普遍缺乏这类循环反馈机制,后验信心判断有时甚至较先验判断更为偏差,暗示它们难以通过自身“经验”实现元认知优化。 在相对准确性层面,LLMs整体表现不逊于人类,尤其是在处理偶然性不确定的预测任务时,更易区分正确与错误判断的信心水平。但在人类依赖记忆和经验感知的认知任务中,尽管LLMs仍然能展现一定区分力,其表现未必稳健。项级分析进一步揭示,LLMs与人类在个别题目上的难度感知和信心赋值存在差异,显示两者所依据的判断线索可能不一致,模型更可能依赖训练语料库中语言模式的统计性知识,而非真实的内在体验。 这些发现对人工智能的实际应用和用户信任建构具有重要意义。
首先,LLMs能够生成一定程度的信心判断有助于提升人机交互的透明度,使用户更有效地评估和利用AI建议,从而减少盲目信任带来的风险。其次,认识到LLMs存在无法基于自身经验调整信心的限制,有助于教育用户理性看待AI输出,避免过度依赖。同时,研究结果也提示模型开发者需在训练和设计中引入机制,促进AI系统的元认知反馈,如结合外部校正信号优化置信度估计,增强模型的不确定性量化能力。 未来研究可以进一步扩展对更多种类LLMs的比较,涵盖开源及商业闭源模型,探讨不同训练策略和超参数设置对信心判断的微观影响。同时,深入研究模型如何融合元认知提示,特别是如何模拟或代替人类的认知内在线索,将是提升人工智能认知合成质量的关键路径。探索低信息环境下LLMs信心判断的鲁棒性,以及不同人格化提示对元认知表现的调节作用,也具有重要实践价值。
综合来看,当前研究表明,尽管大型语言模型在信心判断的绝对和相对准确性层面表现优异,甚至优于普通人类用户,但其缺乏基于经验的动态元认知更新能力,且其过度自信的倾向不可忽视。人类与模型在评价难度和信心赋值上存在结构性差异,反映出不同的认知和统计机制。认识到这些优势与局限,对于用户理性利用AI工具、提升人机协作效果以及推动智能系统元认知能力的进化,都具有深远影响与重要指导意义。