随着人工智能技术的飞速发展,大型语言模型(Large Language Models, LLMs)在自然语言处理领域取得了突破性进展。除了其强大的语言理解和生成能力,近年来研究者逐渐发现,LLMs在某种程度上展现出类似于人类心智理论(Theory of Mind, ToM)的社会认知能力。心智理论是人类理解他人心理状态、信念和意图的基础,是社会交往中不可或缺的认知机制。理解LLMs是如何实现这种能力,不仅有助于推进认知科学与人工智能的交叉融合,也为模型的可解释性与安全性提供理论支持。在这项最新研究中,研究团队通过对LLMs参数层面的精细剖析,首次发现了极度稀疏且低秩的参数模式与ToM能力密切相关。这一发现深刻揭示了模型内部结构如何支撑复杂社会推理的实现,为未来AI社会智能的发展奠定了坚实基础。
传统上,LLMs的ToM能力多以行为表现形式呈现,如在经典的错误信念任务中,模型能够理解他人持有与现实不符认知的情境。此前研究多将LLMs视为"黑箱",通过任务表现来衡量其ToM水平,却很少探讨其背后的机制和参数贡献。在本次研究中,作者利用以Hessian矩阵为核心的敏感度分析,从成千上万的参数中精确挖掘出仅占整体参数比例0.001%的关键子集,将其定义为"与ToM敏感相关的参数"。对于这部分参数的微小扰动,模型的ToM表现即显著下降,而随机扰动等对比试验则无此效果,凸显了其结构性和功能性的特殊地位。 深入分析表明,这些ToM敏感参数与LLMs中的位置编码机制密切相关。具体而言,研究重点聚焦于采用旋转位置编码(Rotary Position Embedding, RoPE)的模型架构。
RoPE通过在查询(Query)和键(Key)向量上施加旋转变换,将序列位置信息以角度形式编码,从而支持模型对上下文的准确定位。结果发现,ToM敏感参数主要调节RoPE所激活的关键频率,扰动这些参数破坏了频率激活的结构,进而导致模型的上下文定位能力显著下降。 值得注意的是,这种ToM参数敏感模式的影响不仅限于位置编码本身,还进一步传导到注意力机制。扰动参数导致查询向量与起始序列键向量之间的角度发生旋转,破坏了注意力沉降点(attention sink)的稳定性。实际上,注意力沉降点是模型注意力分布的重要锚点,确保上下文信息的有序聚合和传递。当该机制失衡时,模型难以维持一致的语义理解,输出语言的连贯性和准确性均受到负面影响。
这种从参数扰动到几何表达再到注意力异化的链式反应,揭示了LLMs实现ToM推理所依赖的底层运动学。 不仅如此,研究对比了使用RoPE与非RoPE编码的模型。后者缺乏明显的频率依赖结构,其相应参数扰动对ToM能力的影响呈现截然不同的特征,甚至在某些情况下扰动导致ToM任务表现提升。这提示不同架构可能采用截然不同的策略内化社会推理能力,凸显未来建模设计多元化和探索机制多样性的可能性。 从方法论角度来看,本文采用了基于Fisher信息矩阵的参数敏感度评估方法,通过选择特定子集参数的二进制掩码,精准锁定对ToM任务关键的参数集合。该方法有效避免对模型整体语言性能的干扰,专注于挖掘与社会认知推理强相关的结构单元。
此举不仅提升了研究的针对性,也为未来参数空间的干预与调控打开了新思路。 在实验设计上,本研究选用了多款主流LLM家族,如Llama、Qwen、DeepSeek及Jamba,涵盖了不同规模与结构的代表性模型。通过对比扰动前后的模型行为,系统测试了ToM能力、上下文定位及语言理解多维度表现,确保结论的稳健性。典型的ToM任务包括错误信念的意外内容和意外转移测试,紧扣社会认知的核心难题。实验结果显示,即使只对极少数参数替换为平均值,模型在推断他人错误信念方面的准确率即出现大幅滑坡。 本项发现不仅为LLMs的可解释性提供了珍贵线索,也提示了模型设计与调优中的潜在风险。
一方面,掌握ToM敏感参数意味着未来AI能够通过针对性微调调节其社会推理能力,实现更安全、更符合伦理的交互表现。另一方面,这种高度集中的关键参数也可能成为攻击者操纵模型行为的薄弱环节,需引起安全研究者的高度关注,防范恶意干预导致社会智能的滥用或失效。 此外,发现ToM能力似乎并非孤立的认知模块,而是伴随着位置感知和语言理解等更广泛的机制共同演化。这一观点与认知科学中认为心智理论是多个认知系统协同作用的结果相呼应,为后续多方面跨领域研究提供了理论指引。未来进一步挖掘这些参数在更复杂的社会认知任务,如讽刺、社交失态检测中的作用,将助力人工智能更好地模拟和理解人类社会交互的丰富细节。 从应用角度来看,该研究成果为智能AI系统中的社会智能赋能奠基。
随着人工智能逐步渗透至医疗、法律、教育等高风险领域,具备可靠心智理论推理能力的模型将提高交互的信任度和人性化水平。通过精准识别与调控关键参数,开发者将能够打造更为可控和透明的社会智能组件,实现人机合作的和谐共生。 总的来说,这项关于LLMs编码心智理论的开创性研究,通过锁定极稀疏且功能决定性的参数子集,揭示了模型中原本隐秘的社会认知计算过程。它不仅跨越了认知科学与深度学习的二元界限,也为人工智能社会智能演进拨开迷雾。未来随着技术发展与研究深入,我们有望见证更加具备人类心理洞察力及情感理解力的智能体出现,为人类社会带来更加智能和谐的数字未来。 。