人类认知的复杂性一直是科学界的重大挑战。如何理解和预测人类在不同环境和情境中的行为,不仅关系到心理学、神经科学的发展,也对人工智能、医学以及教育等领域产生深远影响。传统上,认知科学多依赖领域特定的模型来描述和解释特定类型的认知行为,如决策、学习或记忆。然而,这些模型大多局限于特定任务,难以适应真实世界的多样性和复杂性。近年来,随着大规模数据和先进计算技术的结合,研究者们开始探索基础模型——一种能够普遍模拟人类认知行为的统一框架。2025年发表在《自然》杂志上的“Centaur”模型即为这一领域的重大突破,展示了如何通过大规模心理学实验数据来训练并微调现代大型语言模型,从而实现对人类认知行为的精确预测与捕捉。
Centaur模型的核心优势在于其极强的普适性和通用性。它以领先的语言模型Llama 3.1 70B为基底,通过量化的低秩适配(QLoRA)技术,在涵盖超过六万名参与者、逾一千万选择行为的160个心理学实验数据集“Psych-101”上进行微调。Psych-101囊括了诸如强化学习、多臂赌博机、记忆、监督学习及马尔可夫决策过程等多个认知领域的试验数据,这使得Centaur在学习过程中接触到了多样且代表性的认知任务。更令人瞩目的是,Centaur不仅在训练过的实验中表现优越,还能在未见过的任务、实验环境和实验结构中保持强大的预测性能,显示出显著的泛化能力。 传统认知模型如前景理论或强化学习模型,虽然在各自任务中表现不错,但它们存在模型构建复杂、普适性差的问题。Centaur通过利用大型语言模型的强大表示能力,将不同实验和认知任务用自然语言统一表示,从而大幅度提升了模型对任务结构的理解和适应能力。
值得注意的是,Centaur在预测未参与训练的个体行为时,明显优于同层级的认知模型和原始Llama模型其自身。此外,Centaur在模拟开放式行为时的表现也接近真实人类,体现了其在认知动态演变过程中的可信度和真实性。 模型的训练过程兼顾效率与准确性,采用了低秩适配方法,该方法在保持基模型参数冻结的前提下,添加少量可训练参数。这种方式既保护了原有语言模型的通用知识储备,又使模型能快速地适应认知行为数据,防止过拟合。在训练中,模型专注于人类参与者的行为响应,过滤无关指令内容,提升了学习信号的质量。训练仅需约五天时间,硬件则是高性能的A100 GPU,展示了即使在计算资源有限的情况下,该方法的可行性和实用性。
Centaur的泛化能力在多个层面上得到了验证。它能够适应实验覆盖故事的变化,例如将两步任务中的“太空船”故事换成“魔法飞毯”,依然准确预测人类选择行为。此外,面对结构性任务修改,如“玛吉的农场”中多选项臂赌博机的出现,Centaur保持出色的适应性。同样,在完全未见过的新领域如逻辑推理测试中,模型仍表现优于未经微调的基础模型,体现了其伟大潜力。如此广泛的适应性有望推动认知科学走向更加综合的统一理论,而非局限于零散片段的领域模型。 除了行为层面,Centaur的内部表示同样展现了与人类神经活动的高度相似性。
在进行功能性磁共振成像(fMRI)数据的预测时,模型优于原始的Llama和其他认知模型,尤其在与抽象和具体覆盖故事相关的脑区表现出更佳的拟合。这说明基于大量行为数据的微调不仅提升了模型的预测能力,还深化了其神经计算机制的拟合,从而更好地反映人类大脑认知过程的底层特征。 值得一提的是,Centaur不仅能够捕捉平均人群的行为模式,还能重现不同行为策略的分布。以著名的“两步任务”为例,人类表现出了从完全基于模型自由学习到完全基于模型的多样策略,Centaur同样能产生与人群分布相似的多模态轨迹,显示其人类行为模拟的精细程度。 社会行为和非人类行为预测的差异化能力也得到了展示。Centaur在预测实验中对人类参与者的反应准确率高达64%,而对于人工代理的行为预测准确率明显较低,仅为35%。
这种筛选效应强调了模型对于“人类性”认知轨迹的敏感度,减少了盲目泛化,有助于精准理解人类特有的认知机制。 从科学研究应用角度,Centaur和其基础数据集Psych-101为认知科学的自动化和模型指导式发现开辟了新天地。通过结合大型语言模型的推理能力,例如DeepSeek-R1,研究者可以从数据驱动的模型产出中提取解释,将非结构化的行为数据转化为易于理解和定位的认知策略。科研人员通过“科学遗憾最小化”(scientific regret minimization)技术,利用Centaur作为理想预测模型,找出传统模型难以捕捉的行为样本,进而优化更符合人类行为的认知策略模型。这为理解人类在多属性决策中的认知启发式和复杂策略机制提供了革新手段,同时保障了模型的可解释性和实用性。 未来,Centaur模型有望在多模态数据整合、神经架构解释以及跨文化认知差异研究中继续发挥关键作用。
当前Psych-101虽以西方受教育的工业化人口为主,后期扩展计划旨在涵盖更多领域如社会心理学、经济学游戏和发展心理学,增强个体差异信息输入,促进个性化认知模拟。跨文化研究的深入纳入也将帮助揭示普适认知理论与文化变量之间的关系,推动真正意义上的全球认知理解。 此外,基于类似Psych-101的标准化自然语言形式表达,未来认知数据集可实现更广泛的共享和复用,有助于建构认知科学的开放数据库和评测框架。多模态数据的引入将使研究不仅限于语言和行为,还能整合视觉、音频及生理指标,打造更加立体和全面的认知预测模型。 总结来看,Centaur奠定了统一认知模型构建的重要基础,突破了领域限制,展现了多任务、多领域的强大泛化能力。其对脑神经数据的适配,验证了模型对认知过程的深度模拟和理解。
未来,随着数据集和模型架构的持续完善,人类认知科学将迈入前所未有的规模和准确度,为心理学理论、认知神经科学及应用人工智能发展开辟新篇章。