人类认知的复杂性和多样性长期以来一直是心理学和认知科学的核心研究领域。我们如何理解从简单日常决策到复杂推理的各种心智活动?尽管已有多种领域专一的理论和模型,但统一描述所有认知活动的统一理论始终未能实现。如今,随着人工智能和大数据技术的迅猛发展,突破这一瓶颈的可能性正在显现。2025年发表在《Nature》上的一项重大研究推出了名为Centaur的基础模型,其通过对超过六万名参与者在160个不同认知实验中一亿次选择行为的大规模数据集Psych-101的微调,开创性地实现了对人类认知行为的精准预测和模拟。该模型不仅巩固了认知科学的研究基础,也为构建统一的认知理论奠定了坚实的技术基础。 Centaur的设计核心是结合了当前最先进的大型语言模型Llama 3.1 70B与心理学行为数据。
大型语言模型因其在自然语言处理上的卓越表现,被赋予广泛的隐式知识和复杂的推理能力。然而,这些模型本身缺乏针对具体人类决策模式的调校。研究团队利用参数高效的低秩适配技术(QLoRA)固定了基础模型的原始参数,仅调整额外加入的低秩适配模块。这种方法不仅显著降低了训练成本,同时也保证了模型在原始语言知识基础上的认知适应性。微调过程专注于使模型输出能够精确匹配自然语言格式下人类的选择行为,极大提升了对个体和群体认知决策模式的捕捉能力。 与以往专注于单一认知领域或任务的模型相比,Centaur展现出卓越的跨领域通用性。
它不仅能够准确预测未见过的参与者在训练过的实验条件下的行为,更能在全新或结构修改的实验范式中保持表现稳定。例如,在经典的“两步任务”中,Centaur不仅能拟合习惯性和规划性学习的混合轨迹,还成功适应了更换故事背景的任务,这表明模型对认知过程有深层次的理解与抽象能力。对多选项赌博任务的应用进一步表明,即使面对任务结构的变化,Centaur依然能模拟人类探索与利用策略的分布,超越了传统认知模型的局限。 Centaur的强大还体现在其对响应时间的预测能力上。根据心理学中的希克定律,响应时间与选择不确定性存在密切关联。模型输出的响应熵显著解释了近四百万响应时间数据的变异,超过了未经微调语言模型和传统认知模型的表现。
这不仅说明了模型对决策过程动态特征的准确把握,也为未来建构更全面的认知时间模型提供了有效工具。 除行为预测外,Centaur内部的深层表示与人类神经活动高度相关。通过功能性磁共振成像(fMRI)对执行认知任务的受试者大脑信号进行解码,研究人员发现细调后的模型在预测脑区活动方面优于基线语言模型。尤其在奖赏相关的脑区如伏隔核和前额叶皮质中,Centaur的激活模式与人类高度吻合,进一步证明了其神经对齐能力。这种对齐不仅限于训练任务,模型在自然语言理解相关大脑区域的活动预测中同样表现优异,展现了其广泛的认知代表能力。 Centaur生成的模型可支持科学发现和认知理论的迭代改进。
作为基于大规模数据驱动的黑盒模型,尽管预测力强大,但其解释性有限。在一项多属性决策研究中,研究人员借助自然语言推理模型DeepSeek-R1生成行为解释,进而构建形式化的认知模型。通过与Centaur的比较,识别出解释欠缺之处,并采用“科学遗憾最小化”方法优化了该模型。最终,结合传统启发式与新发现的加权策略构筑了既具解释性又保持预测力的模型,实现了数据驱动认知科学的典范路径。 尽管Centaur标志着认知科学数字化与模型化的新篇章,面临的挑战也十分明显。数据集Psych-101当前主要涵盖学习与决策领域,社会心理学、语义语言学及跨文化认知等领域仍待拓展。
此外,参与者多为西方受教育群体,缺少全球多样性代表。未来的研究需要引入更多元的心理学实验数据,融合个体差异如年龄、性格和文化背景元素,提升模型的普适性和公平性。模型结构的改进也将是关键,探索不同神经网络架构,融合神经科学理论,可能有助于进一步深化对人类认知的理解。 从方法论角度看,Centaur强调了利用自然语言作为表达不同实验范式的通用桥梁。这种统一语言格式消除了不同领域之间的壁垒,使模型能够充分学习和迁移不同认知任务间的知识。不过,这一优势也带来了偏向可语言化实验的风险,难以全面覆盖视觉、运动等非语言认知过程。
未来的发展方向之一是实现多模态数据整合,使模型跨越语言、视觉、动作等认知维度,全面捕捉人类复杂认知特征。 在人工智能的快速进展背景下,Centaur充分证明了基础模型在认知科学领域的巨大潜能。它不仅为统一认知模型的构建提供了数据和算法基础,也开启了自动化认知科学的新纪元。这种“认知大模型”可用于实验设计优化、认知偏差检测及个体化心理评估,进而在教育、医疗、人工智能交互等领域释放价值。长期来看,类似Centaur这样的综合认知模型有望推动人类对自身思维和意识的深度解码,甚至为构建具备类人智能的人工系统奠定认知科学基石。 综上所述,Centaur基础模型的诞生代表了认知科学重要的技术突破。
它融合了海量行为数据和先进语言模型技术,成功实现了人类认知行为的高精度预测和神经对齐,为统一理论路径铺平了道路。未来将通过模型结构创新、多样数据库构建及跨领域协作,推动认知科学迈向更深层次的理解与应用。正如历史上多次科学革命一样,数据驱动与人工智能方法的结合正在为解锁人类心智机制打开新视界,Centaur就是其中的先锋之一。将这一方向持续推进,不仅有助于回答“我们如何思考”的根本性问题,也为智慧科技的发展带来无限可能。