在人类认知科学领域,建立一个能够全面解释和预测人类行为的统一理论一直是研究者的终极目标。长期以来,传统认知模型因其局限于特定领域而难以满足这一目标,而近期基于大规模数据和先进技术驱动的基础模型(Foundation Model)则为实现通用认知理论奠定了坚实基础。本文聚焦由Marcel Binz等科学家打造的Centaur模型,这一开创性的认知基础模型如何通过大规模心理学数据集的调优,成功捕捉并预测人类认知行为,促进认知科学的跨领域整合与发展。人类思维的广泛性令认知研究充满挑战。人们在日常生活中作出各种选择,从简单的早餐选择到复杂的科学研究,展现出强大的学习能力、因果推理和探究精神。然而,迄今为止,无论是机器学习领域的顶尖系统还是认知科学中的经典理论,通常都只针对某一特定领域表现优异,难以实现跨任务的泛化。
因此,构建一种能跨越多种场景、解析复杂人类行为的通用认知模型成为研究重点。Centaur模型的诞生正是在这一背景下应运而生。当今许多大型语言模型预训练于海量文本数据中,蕴含广泛知识,但其行为并不总能精准反映人类认知。研究团队针对这一问题,基于Meta AI的前沿语言模型Llama 3.1 70B,通过参数高效的量化低秩适应技术(QLoRA),在覆盖160项心理学实验的“Psych-101”数据集上进行微调。这一数据集包括超过6万名参与者、超过一千万次的选择行为,涵盖多臂老虎机、决策制定、记忆、监督学习及马尔可夫决策过程等多领域,从而保证模型训练的广度与深度。微调过程中,研究人员对模型只在产生预测行为相关的响应时进行梯度更新,确保Centaur专注于模仿人类的实际选择行为,而非仅仅完成文字任务。
该训练历时约五天,新增参数仅占原模型的千分之一五,彰显出调整过程的高效与精准。在验证阶段,Centaur显著超越了未经微调的基线语言模型及一系列领域特定的认知模型。这表明该模型不仅能捕捉训练数据中未见个体的行为,还能模拟多种任务条件变化下的决策,如不同故事背景、任务结构调整,甚至是全新未见的认知领域。更重要的是,Centaur展现出人类行为的群体多样性特点,而非仅仅拟合平均趋势。这说明模型在学习复杂行为模式上达到了前所未有的深度。其在人类行为预测的负对数似然指标上持续优于其他模型,具备统计显著性。
开放式行为生成测试进一步证实,Centaur能在无反馈条件下实现高度人类类似的行为表现,例如在探索-利用两难的地平线任务中展现出的不确定性驱动探索倾向,与人类参与者高度一致。除了行为预测,研究人员还评估了模型的神经对齐能力。通过解码功能性磁共振成像(fMRI)数据,Centaur内部表示层成功映射至执行任务时人的大脑激活模式,优于原始语言模型和传统认知模型。这种内部表征与人脑活动的契合,证明了模型在捕获认知机制方面的潜力,为认知神经科学提供了新的数据驱动工具。此外,Centaur在预测人类反应时的能力上也表现出色,响应时间分析显示模型计算的熵值与实际人类反应时间呈显著线性关系,进一步增加了其实用性。该模型还稳定维护了在自然语言处理等机器学习基准测试中的表现,表明其认知专注的训练并未牺牲通用能力。
科学发现方面,Centaur和Psych-101数据集联合为认知模型的创建与优化提供了新范式。借助语言模型DeepSeek-R1,研究者从行为数据中生成解释策略,再结合Centaur进行科学遗憾最小化,反复迭代,最终得到既精准又具可解释性的认知决策模型。这种自动化引导的建模流程标志着认知科学方法论的进步,为未来跨复杂任务的认知理论构建指明路径。值得关注的是,虽然当前Psych-101数据集涵盖广泛实验,仍存在文化偏差和实验表达局限,未来研究计划引入更丰富的个体背景信息、发展心理学、跨文化数据等,提升模型的泛化能力和公平性。同时,探索多模态数据格式或许能突破仅基于语言描述的限制,从而实现更加全面的人类认知模拟。综上所述,Centaur作为首个真正意义上的认知基础模型,不仅实现了跨领域预测并模拟人类行为的能力,还在内部表征上呈现出与人脑高度一致的特征,推动了认知科学迈向统一理论的里程碑。
它打开了探索人类认知机制及其实现架构的新篇章,激发了人工智能与认知神经科学之间更深层次的融合。未来,通过扩展数据范围、模型结构创新与多学科融合,基础模型有望成为揭示人类思维本质的关键工具,助力开发更具解释力和适应性的智能系统,促进科学和技术的共同进步。