类别
NFT 和数字艺术元宇宙与虚拟现实加密交易所新闻加密初创公司与风险投资加密市场分析加密活动与会议加密税务与合规加密货币的机构采用加密钱包与支付解决方案加密骗局与安全	区块链技术去中心化金融 (DeFi) 新闻山寨币更新投资策略与投资组合管理挖矿与质押比特币监管和法律更新稳定币与中央银行数字货币行业领袖访谈首次代币发行 (ICO) 和代币销售

页面
主页关于条款	搜索

请捐款 BTC

类别
NFT 和数字艺术元宇宙与虚拟现实加密交易所新闻加密初创公司与风险投资加密市场分析加密活动与会议加密税务与合规加密货币的机构采用加密钱包与支付解决方案加密骗局与安全	区块链技术去中心化金融 (DeFi) 新闻山寨币更新投资策略与投资组合管理挖矿与质押比特币监管和法律更新稳定币与中央银行数字货币行业领袖访谈首次代币发行 (ICO) 和代币销售

页面
主页关于条款	搜索

请捐款 BTC

类别
NFT 和数字艺术元宇宙与虚拟现实加密交易所新闻加密初创公司与风险投资加密市场分析加密活动与会议	加密税务与合规加密货币的机构采用加密钱包与支付解决方案加密骗局与安全区块链技术去中心化金融 (DeFi) 新闻	山寨币更新投资策略与投资组合管理挖矿与质押比特币监管和法律更新稳定币与中央银行数字货币	行业领袖访谈首次代币发行 (ICO) 和代币销售

页面
主页关于条款	搜索

请捐款 BTC

类别
NFT 和数字艺术元宇宙与虚拟现实加密交易所新闻加密初创公司与风险投资加密市场分析加密活动与会议	加密税务与合规加密货币的机构采用加密钱包与支付解决方案加密骗局与安全区块链技术去中心化金融 (DeFi) 新闻	山寨币更新投资策略与投资组合管理挖矿与质押比特币监管和法律更新稳定币与中央银行数字货币	行业领袖访谈首次代币发行 (ICO) 和代币销售

页面
主页关于条款	搜索

请捐款 BTC

2025年12月16号 10点22分15秒

大语言模型如何编码"心智理论":稀疏参数模式研究解析

挖矿与质押加密税务与合规

钱财 qian.cx

探索大语言模型(LLMs)中"心智理论"能力的机制,通过稀疏参数模式揭示其对社会推理与语言理解的核心影响,助力人工智能的可解释性与认知科学融合发展。

随着人工智能技术的发展,大语言模型(LLMs)已成为自然语言处理领域的核心力量。它们不仅在文本生成、翻译、问答等任务中展现出色表现,还出现了令人瞩目的"心智理论"(Theory-of-Mind,ToM)能力 - - 通过推断他人心理状态和意图,实现更深层次的社会推理。理解这种能力在模型内部是如何形成与运作的,成为推动AI可信度、解释力和社会适应性的关键所在。最新一项研究针对大语言模型中的ToM能力展开了机制层面的探索,重点聚焦极其稀疏的参数模式对这一能力的贡献。研究不仅揭示了ToM功能所依赖的参数分布和结构,还阐明了其对位置编码和注意力机制的影响,为AI系统的社会智能提供了全新视角。心智理论是指理解和推理他人信念、欲望、意图等心理状态的能力。

作为人类社会认知的根基,ToM通常涉及推断他人可能持有与现实不同的信念。大语言模型在面对诸如"误信任务"等ToM测评时能否准确推理,成为衡量其社会推理水准的重要标尺。遗憾的是,当前多数研究偏向于将LLMs视作黑盒,侧重于性能评估和提示工程,缺乏深入理解模型内部参数如何调控和体现这种能力。针对这一空白,研究团队设计了基于Hessian敏感度分析的方法,从数百万甚至数十亿参数中筛选出极稀疏、仅占整体参数0.001%的ToM敏感参数子集。这些参数主要集中于关键的线性变换矩阵中,如查询权重(WQ)、键权重(WK)等,且呈现低秩结构。更重要的是,对这部分参数进行微调或扰动,模型的ToM相关任务表现会显著下降,暗示它们在实现社会推理过程中扮演了不可替代的角色。

进一步剖析发现,这些敏感参数与Transformer架构中的旋转位置编码(Rotary Position Embedding,RoPE)模块紧密联结。RoPE通过依赖特定频率模式对序列位置信息进行编码,帮助模型维护上下文的顺序结构。敏感参数的扰动会破坏RoPE激活的主导频率,从而导致模型在对输入上下文的准确定位和理解上出现缺陷。这种机制解释了为何少量参数的微小改动能造成整个模型推理表现的崩塌。注意力机制方面,扰动ToM敏感参数还会改变查询向量与"序列开始"键向量(kBOS)之间的角度关系,使原本稳定的"注意力汇聚"点发生偏移。注意力汇聚是LLM内部一种稳定注意力分布的现象,保证模型在处理序列信息时能保持连贯的上下文连接。

当这种结构被破坏时,模型注意力焦点散乱,导致语义理解和推理能力同步下降。该发现不仅揭示了ToM能力内部结构与位置编码和注意力机制的深层联系,也为设计具备更好社会适应性的AI提供了技术基础。在不同架构之间的对比中,未采用RoPE编码的模型如Jamba系列,呈现出完全不同的ToM敏感参数分布和作用机制,甚至扰动后ToM表现有所提升,暗示非RoPE体系可能采纳了不同策略实现社会推理。这种多样性为未来探索新型编码技术和优化方案提供了实验契机。此外,研究结果表明,ToM敏感参数对模型整体语言理解能力亦有深远影响。尽管扰动仅限于0.001%的参数,模型在逻辑推理、领域知识运用(特别是商业伦理等涉及社会规范的领域)等语言理解指标上也经受明显打击。

这彰显出ToM能力非孤立存在,而是深植于模型对上下文的细致分解与语义构造机制,反映了社交认知与语言理解的自然融合。从理论角度看,该研究推动了人工智能认知科学的前沿,连接了社会推理过程和神经网络架构之间的桥梁,也激发了关于人工智能如何映射类人认知功能的新思考。应用层面,定位具有关键影响力的稀疏参数群不仅增强模型的可解释性,还为可控性和对抗鲁棒性研究开启了前沿路径。掌握控制这部分参数,未来或可针对性调整模型的社会行为,避免偏见和误用风险,同时提升AI在医疗、法务、人机协作等高风险领域的可信赖水平。未来工作可进一步拓展ToM能力的广度与深度分析,涵盖更复杂的社交情境如讽刺、社交失态识别等。同时,将此框架延伸至视觉问答、多模态融合等跨领域任务,探讨多感知输入中社会推理的统一机制,或成趋势。

此外,深入探讨ToM敏感参数与人类大脑神经机制的相似性,可能促成人工智能与认知神经科学的交叉突破。总之,这项针对大语言模型心智理论编码的研究不仅揭示了社会推理能力的稀疏参数基础,还点亮了人工智能迈向更透明、可控及社会兼容智能体系的道路。随着技术的持续迭代,这类机制层面的洞察将成为保障AI安全与伦理的重要基石,为智能机器赋予更丰富的人类认知特质提供坚实科学依据。。