在人类认知科学领域,理解人类思维与行为的本质一直是科学家们孜孜以求的目标。尽管已有丰富的具体理论解释诸如决策、学习和记忆等特定领域,但长期以来,构建一个统一的认知模型来全方位预测并涵盖人类行为始终是一项艰巨的挑战。近期,一款名为Centaur的基础模型应运而生,它通过融合先进的大型语言模型和海量心理实验数据,展现了捕捉人类认知的强大潜力。这一创新成果不仅在多个领域的行为预测中表现杰出,更在一定程度上对人类神经活动的内部表征进行了还原,拉近了人工智能与人脑认知机制之间的距离。 Centaur的核心基础在于其背后的数据集Psych-101,这是一个跨越160个心理学实验、涵盖超过6万名参与者,累计逾一千万次人类选择的大规模行为数据宝库。其内容横跨多重认知领域,包括多臂老虎机问题、决策过程、记忆研究、监督学习及马尔可夫决策过程等,保证了模型训练时内容的高度多样性与丰富性。
更为重要的是,所有实验均以自然语言的形式转录,使得不同实验范式得以用统一的文本格式表达,为模型的语言理解与适应提供了重要支持。 技术方面,Centaur基于Meta AI开源的Llama 3.1 70B大型语言模型,采用了名为量化低秩适配(QLoRA)的参数高效微调技术。在保证基础模型权重冻结的同时,通过为关键网络层添加少量可训练的低秩适配器,完成了对行为数据的精细调整。这种方法不仅极大节省了训练计算资源,也避免了过拟合风险,使模型能够在原有的语言学知识基础上深化对人类行为模式的捕捉,仅用一轮训练便取得显著性能提升。 在模型评估中,Centaur表现出了超越传统领域特定认知模型的能力。通过对未参与训练的个体行为预测,Centaur在绝大多数实验中均优于其它领先模型。
它不仅能准确预测个体在包含历史上下文的连续任务中的选择,还能以开放循环方式模拟人类决策路径,生成多样化且符合真实人群分布的行为序列。此外,Centaur对于修改场景设定、任务结构变化乃至全新认知领域的泛化能力也令人瞩目。举例来说,当被置于未见过的“魔毯”覆盖故事中时,仍能准确预测参与者行为,在引入第三选项的多臂老虎机结构调整中依然表现稳定,在逻辑推理等全新领域亦展现出可观的预测能力。 Centaur的内在表征也通过功能性磁共振成像(fMRI)数据得到印证。研究显示,经过微调后,Centaur的神经网络层输出在预测人体大脑活动时比未调整前更具相关性,尤其是在执行两步任务和阅读短句过程中,这种对人脑的映射契合度显著提高,表明模型不仅在行为层面契合人类,更在神经表征层面成就初步对齐。这种认知-神经双重验证的表现,极大地增强了其作为统一认知基础模型的科学价值。
Centaur与其训练数据Psych-101的结合还展现了科研应用的广阔前景。利用Centaur模型,不仅能够在无需额外数据收集的情况下开展科学遗憾最小化(scientific regret minimization)分析,辅助细化可解释的认知策略模型,还为认知科学实验设计提供了数字孪生的可能。研究者可借助模型在虚拟环境中进行高效原型设计、预测实验结果与优化样本规模,从而提升科研效率和创新能力。 未来发展中,Centaur激发了多个重要研究方向。科学家们期望通过进一步剖析其内部机制,揭示模型知识表示与信息处理的规律,为认知科学的理论构建提供启示。同时,基于Psych-101庞大数据,设计出更具神经机制解释力的新型模型架构,将推动从领域泛化模块到脑区功能模块的整合研究。
还有待加入心理语言学、社会心理学以及个性差异与跨文化研究等新领域数据,以增强模型对人群多样性与发展变化的理解。 总的来看,Centaur作为人类认知科学领域的一次突破性尝试,打破了传统认知模型的领域限制,展现出前所未有的跨域预测能力和神经对齐特性,为实现统一认知理论铺平了道路。它体现了数据驱动与大规模预训练语言模型创新结合的力量,开启了人工智能辅助认知科学研究的新纪元。随着模型不断完善和应用范围拓展,Centaur有望成为理解人类思维行为的智能桥梁,推动科学与技术的深度融合,助力揭示大脑和心智的奥秘。