人类认知的复杂性和多样性,长期以来一直是心理学和认知科学领域的核心探讨对象。人们能够在繁琐的日常选择中做出决策,也能面对未知挑战展现出极强的学习能力和创造力。然而,传统的认知模型大多局限于特定领域,难以实现跨任务甚至跨领域的泛化。深刻理解和预测人类认知,亟需一套统一且通用的计算框架。 近年来,随着大型语言模型的发展,科研人员发现,这类模型蕴含着丰富的世界知识和复杂的语言理解能力。将这种技术应用于认知科学领域,成为开辟新路径的突破口。
基于此理念,科学家们提出了Centaur——一个以大型语言模型为基础,通过海量人类行为数据进行微调的认知基础模型。通过这一方法,Centaur不仅能够预测新参与者在众多实验中的行为,还能够适应从未见过的任务结构和覆盖故事,展现了强大的泛化能力。 Centaur的训练基于Psych-101数据集,这是迄今为止规模空前的人类认知行为库,涵盖了超过6万名参与者在160个实验中共计逾1千万次的选择记录。所有实验均被转换成自然语言描述,使得不同实验的表述风格被统一,便于语言模型处理。数据涵盖的领域广泛,包括但不限于多臂赌博机、决策制定、记忆机制、监督学习以及马尔可夫决策过程等,这种多样性保证了模型训练的广泛适用性。 在技术层面,Centaur依托于Meta AI发布的Llama 3.1 70B大型语言模型,通过量化低秩适配技术(QLoRA)进行参数高效微调。
该技术允许在保持基模型权重不变的前提下,添加仅占整体参数0.15%的可训练低秩适配器,从而专注优化模型对人类响应的预测能力。微调过程中,训练目标仅限于人类行为对应的部分,避免模型过多关注实验指令文本,提升了行为预测的准确性和专业性。 评估结果显示,Centaur在预测未见参与者行为方面表现优异,优于原始未微调模型和一系列经过专门设计的领域特定认知模型。不仅如此,Centaur还能在开放回路模拟中生成与人类行为高度相似的决策轨迹。以著名的“地平线任务”为例,模型表现出与人类参与者相当的探索行为水平,尤其是在引导探索方面的表现,显示了对认知机制深刻的捕捉。 Centaur还成功抵御了对非人类行为的预测,准确区分了人类与人工代理的策略差异。
此外,它具备坚实的外推能力,能够适应前所未见的任务变体。无论是改变任务的背景故事,如“太空飞船”转换为“魔法地毯”,还是任务结构的升级,从二选一变为三选一,甚至是在完全陌生的逻辑推理测试中,模型均能表现出优秀的行为预测精准度。这种跨领域的泛化性能是众多认知模型所罕见的,彰显了基础模型的独特优势。 除了行为预测,Centaur的内部表征亦与人类脑活动展现出高度一致性。研究团队利用功能性磁共振成像(fMRI)数据,将模型的中间层表示与大脑特定区域的活动进行关联。结果表明,经过微调的模型在预测决策任务和语言理解任务中的神经活动方面均显著优于未训练版本,表明模型学习到的认知表征与人脑信息处理机制存在内在联系。
这为构建计算认知神经科学的桥梁提供了创新方法。 Centaur不仅仅是模型,更是认知科学研究的有力工具。研究展示了一例利用该模型进行科学发现的过程:通过与语言模型DeepSeek-R1结合,生成对多属性决策实验中人类策略的解释,并结合科学遗憾最小化方法进行模型优化,从而设计出同时具备高度预测准确性和可解释性的认知模型。此范例充分展示了基础模型辅助理论构建和实验设计的潜力,将有助于推动认知科学实现更广泛的自动化与系统化研究。 面对未来,Centaur的开发者计划持续丰富数据库内容,涵盖更多认知领域如心理语言学、社会心理学及经济游戏等,同时引入个体差异信息以更全面地反映多样化人群特点。此外,多模态数据的整合也将为模型提供更丰富的感知输入,推进认知计算模型向更真实的人类认知架构接近。
构建跨任务、跨领域、跨文化的统一认知模型是认知科学的重要里程碑。Centaur的成功不仅证实了利用大规模数据与语言模型微调结合的可行性,也标志着认知科学迈入了数字智能时代。它预示着未来有望实现理论与实验、行为与神经活动统一建模的愿景,为解开人类思维的本质提供了前所未有的途径。 总而言之,Centaur代表了认知科学与人工智能深度融合的典范。通过基础模型技术,不仅极大提升了对人类行为的预测能力,更推动了认知理论的创新发展。未来,随着数据的进一步丰富与模型架构的持续优化,相信这类基础模型将在心理学、神经科学、人工智能和临床医学等多个领域发挥更大作用,加速揭示人类心智的终极奥秘。
。