在当代科学研究中,揭示人类认知的复杂性一直是心理学和人工智能领域的核心目标。人类的思维兼具高度通用性,从简单的日常选择到复杂的推理与规划,认知的灵活性与复杂性远超传统计算模型的预测能力。尽管过去几十年诞生了诸多在特定认知领域表现卓越的理论模型,但它们往往局限于单一领域,难以覆盖认知全貌。面向这一挑战,最新研究提出了一种基于大规模行为数据和先进语言模型的认知基石模型,名为“Centaur”,旨在通过统一的计算框架准确预测和模拟人类行为。构建Centaur的关键是依托世界领先的大型语言模型Llama 3.1 70B,并对其进行了高效的参数调优,利用名为Psych-101的跨领域数据集展开训练。该数据集涵盖了超过6万名参与者在160种心理学实验中作出的超过1千万次决策,囊括了从多臂老虎机问题、决策制定、记忆、监督学习到马尔可夫决策过程等多个认知领域,成为迄今为止最大的面向认知行为的文本数据集。
通过在该数据集上的微调,Centaur不仅在预测未见参与者行为表现上优于任何现有专门认知模型,还能适应截然不同的实验设置和新颖领域,从而展现出前所未有的泛化能力。传统认知模型如前景理论或强化学习模型,多半只能关注人类决策的部分侧面,或只能针对特定任务优化,而Centaur的出现则打破了这一限制。其基于自然语言描述整合信息的能力,使之能够在语言描述表达的任意实验情境下展开推断。透过这种设计,Centaur能够理解并模拟不同实验方案下个体的行为选择,甚至预测其在修改封面故事或新增任务结构时的表现变化,这是传统模型难以实现的。研究团队还进行了深入的开环模拟实验,验证Centaur生成行为的真实与人类相符度。例如,在经典的“地平线任务”中,Centaur展现出了与人类相当的探索策略和决策效果,体现了模型内在的认知逼真度。
此外,在涉及社交策略预测与推理偏见的任务中,它也表现出接近真实人类的表现,并区分了人类行为与相似统计特性的人工代理行为。值得关注的是,Centaur的内部表征不仅是行为上的模拟,更与人脑活动存在显著对齐。通过分析功能磁共振成像(fMRI)数据,研究表明其不同层级的神经网络表示与人类执行认知任务时的脑区活动高度相关,这一发现暗示了基于大规模行为数据训练的模型能够捕获潜在人类神经表征的特征,推动了认知神经科学与人工智能的融合。除了理论意义,Centaur还展现出巨大的实际应用潜力。借助其统一认知模拟能力,研究者可以利用其进行实验设计的虚拟预测,探索不同实验方案的效果优劣和参与者反应,极大提升认知科学的效率与精准度。同时,通过科学遗憾最小化技术,Centaur还可辅助发现现有模型的不足,指导新模型的设计与优化,实现可解释且更精准的认知理论构建。
Centaur的成功构建也为未来开发规模更大、覆盖更广泛认知领域的模型提供了示范。当前,Psych-101的数据覆盖虽已涵盖众多领域,但仍偏重于学习与决策。未来计划将纳入语言心理学、社会心理学、经济博弈等更多认知分支,甚至包括个体差异、发展心理学和计算精神病学的数据,使模型能捕捉认知的个体化与发展动态,从多维度构建统一心智模拟框架。与此同时,向多模态及非语言数据格式的转变,是消除自然语言表达限制,实现对更广范围认知现象建模的关键方向。基于此,未来的认知基础模型或将集成视觉、听觉、动作等多感官信息,以媲美真实人类的认知广度。Centaur的出现标志着从传统领域特定认知模型向数据驱动、语言引导和高度泛化基础模型转变的重大进步。
它不仅有望推动认知科学走向统一理论,更为人工智能发展打开新局面,使机器更接近“以人类方式思考”。然而,这一方向同时也提出诸如数据多样化、模型透明性、伦理考量与跨学科协作等新挑战。如何在保证模型解释力与科学价值的前提下,兼顾隐私保护及公平性,仍是必答课题。总体而言,Centaur代表了认知科学与人工智能结合的未来趋势,是人类理解自我心智机制的重要里程碑。随着技术持续迭代与数据不断丰富,基于基础模型的认知研究必将为教育、医疗、经济乃至社会治理等领域带来深远影响,推动社会整体迈入智能认知的新纪元。