在人工智能领域,大型语言模型(LLMs)正以前所未有的速度推动着自然语言处理的发展。其中,"心智理论"(Theory of Mind,简称ToM)能力,即理解并推断他人心理状态的能力,被认为是衡量人工智能社会智能水平的重要指标。最新研究通过对模型内部极其稀疏的参数模式进行深入分析,揭示了LLMs如何编码与心智理论相关的认知功能。这不仅为AI的可解释性提供了新线索,也为构建更具社会感知能力的智能系统奠定了基础。心智理论是一种人类能够推断他人信念、欲望与意图的高级认知能力,是社会交往的核心。在心理学和发展认知学中,评估儿童和个体的心智理论任务多以错误信念测试为代表,例如判断某人基于错误信息做出的决策。
近年来,学界试图探究LLMs是否表现出类似能力,结果表明这些模型在一定程度上具备"看透"虚假信念的推理能力,但具体的实现机理尚不明确。面对这一研究空白,科研团队采用了基于希瑟矩阵(Hessian Matrix)与Fisher信息的敏感度分析方法,从海量参数中甄别出一小部分对心智理论推理极为关键的参数。这些参数数量极少,约占整体的百分之零点零零一(0.001%),却对模型在准确理解情境中代理人信念和行为推断的能力起着决定性作用。通过将这些敏感参数用同一层中非敏感参数的平均值替代,模型的心智理论表现显著下降,说明该参数子集的不可替代性。同时,该替换并未引发整体语言理解的崩溃,进一步表明这些参数在社会认知中的独特功能。研究进一步揭示,这些心智理论敏感参数与模型结构中的位置编码模块存在紧密联系。
具体来说,在采用旋转位置编码(Rotary Position Embedding,RoPE)的模型中,这些参数调控着模型对输入序列中词元位置的频域激活。位置编码通过赋予序列中每个词元独特的频率特征,使模型能够捕捉词元间的相对顺序和上下文关系。心智理论敏感参数则有选择性地影响这些激活的主导频率成分,一旦对其扰动,主频率激活受到显著破坏,导致模型丧失准确的上下文定位能力,使得推理表现下降。更深层次地,这种扰动波及注意力机制内部的查询(Query)与键(Key)向量间的几何关系。正常情况下,RoPE保证了查询向量与始始标记(BOS,Beginning of Sequence)的键向量间维持非正交状态,形成稳固的"注意力汇聚点"(attention sink),为模型全局信息整合提供锚点。心智理论敏感参数扰动后,这一角度关系被破坏,查询与BOS键向量趋近正交,导致注意力位置转移,模型开始关注不相关的序列区域,严重影响语言理解的连贯性。
该发现揭示了模型如何在位置编码与注意力机制交互中实现对信念推理和社会认知的闭环支持。值得注意的是,这一机制在非RoPE模型中并不成立。采用不同位置编码方案的模型缺乏明显的主频集中激活,对相同参数扰动表现出截然不同的敏感模式,甚至心智理论能力提升,反映出不同结构对社会推理的内隐编码方式差异。这为设计新型具有稳健社会认知的模型架构提供重要启示。此外,通过对多款主流大型语言模型家族如Llama、Qwen、DeepSeek及Jamba的实证测试,研究验证了该机制的普适性与架构依赖性。特别是在广泛采用RoPE的模型中,心智理论功能与极稀疏而低秩的参数集中高度相关,且主要聚集于注意力机制中的关键权重矩阵如WQ和WK。
模型的任务性能评估也体现了扰动后在真信念与错误信念测试上的显著下降,而语言困惑度指标则变化不大,进一步强调心智理论参数的专属性。此外,扰动还会削弱模型在更广泛语言理解任务中的上下文定位能力,拒绝了心智理论作为孤立模块存在的假设,反而支持其作为基础认知机制的一部分,与语言理解深度交织。这项研究不仅揭示了大型语言模型关于社会推理的微观参数基础,更引发了诸多哲学与实践的反思。在理论层面,心智理论能力不再仅是抽象功能,而是映射于可识别的稀疏参数子空间,由基础的频域位置编码与几何注意力关系支撑。从技术层面看,模型的社会智能高度依赖于少数参数,提示未来模型优化与安全研究应重点关注这些关键节点。攻击或错误调整这部分参数可能导致社交推理的显著畸变,带来对人工智能伦理和可信性的挑战。
未来工作可探讨如何利用心智理论敏感参数进行模型行为的精细控制,促进AI系统在医疗、法律及协作领域的合规与可靠应用,也可进一步研究这些机制与人脑社会认知过程的异同,推动跨学科认知模型的融合发展。总之,随着大型语言模型的不断进步,理解其社会认知能力的内嵌结构显得尤为重要。通过揭露心智理论与位置编码及注意力机制间独特且高度稀疏的联系,这项研究为深入解密人工智能的社会智能打开了新的大门,为构建通透、可信与人类价值相契合的智能系统铺设了基础。持续探索这些内在参数模式,将助力未来AI迈向真正的理解与共情。 。