视觉系统作为人类感知世界的核心通路,承担着从眼睛接收信息到大脑高层认知处理的关键任务。人脑能够处理的不仅仅是简单的物体识别,而是深入提取视觉场景中的对象、空间布局、语义联系以及环境互动等复杂信息。尽管学界对视觉皮层的功能组织和计算原理已有了诸多成果,但如何以量化方式捕捉和研究视觉场景中蕴含的多层次信息,一直是科学界面临的挑战。 近年来,人工智能领域尤其是大型语言模型(LLMs)的飞速发展,为探索人脑视觉表征提供了新的视角和工具。大型语言模型通过在海量文本数据上的训练,形成了对语言上下文和世界知识的深刻理解,能够捕捉语义关系和复杂信息结构。出于这点,科学家们提出了一个引人注目的假设:人脑对视觉场景所形成的高维表征,或许可以用LLM对图像描述的语义嵌入空间来有效模拟和近似。
最新研究利用7特斯拉功能性磁共振成像(fMRI)技术,结合自然场景数据集和图像文本描述,系统评估了LLM生成的场景描述嵌入如何映射至人脑视觉皮层的活动模式。研究中,科学家们选用经优化的语言模型MPNet,将人类提供的场景描述文本转化为高维语义向量,并通过代表性相似性分析(RSA)等方法,测量这种语义向量与脑区神经活动的相似度。结果显示,在大脑的高阶视觉区域 - - 包括腹侧、侧面及顶叶视觉处理流 - - 均观察到显著的匹配关系,表明语言模型嵌入能够准确捕捉视觉信息处理的核心成分。 除了相关性分析,研究者通过线性编码模型建立了更具预测力的脑-语义映射。该模型以LLM嵌入为输入,成功模拟了单个脑体素对视觉刺激的响应,且预测性能接近不同受试者间脑活动的一致性。这表明LLM嵌入不仅仅反映了视觉场景的类别信息,更融合了复杂的语境和关系信息,能精确反映视觉系统对多元信息的综合处理能力。
令人惊讶的是,这一语义映射不仅允许对脑活动进行编码,亦可实现逆向解码,通过脑信号推断出被试者所见场景的文本描述。该解码过程利用线性映射将脑活动转换回LLM嵌入,再通过大规模语料库中的文本检索匹配,实现逼真的场景描述重构,体现了LLM嵌入在神经表征中的高度表达力。 进一步研究揭示,LLM的优势源于其对文本中词语的上下文关系和复杂语义信息的整合能力。对比只考虑图像中物体类别的二值标注、单词平均词向量,以及只聚焦名词或动词的嵌入,发现完整场景描述的LLM嵌入能更好地匹配脑区活动。这说明视觉系统所形成的高层表征,远超简单物体识别,而是对全局语义和场景语境的深度编码。 而在模型训练层面,研究人员设计了以视觉输入映射至LLM嵌入的深度递归卷积神经网络(RCNNs),将图像转化为类似LLM语义空间的表示。
此类网络不仅成功再现了脑活动的语义映射,还在多重视觉区域表现出对人脑反应的高度预测能力。与传统基于类别标签训练的模型相比,LLM训练目标显著提升了网络对高级视觉表征的建模能力,且训练所需样本数远低于多数主流视觉模型,展示了语义驱动训练的巨大潜力。 本研究强调尽管视觉系统与语言模型背后的训练数据和输入模态截然不同,但它们在高维表征空间中展现出惊人的相似性。这一发现为神经科学和人工智能领域搭建了一座桥梁,不仅深化了我们对视觉认知机制的理解,也为开发更具脑启发性的人工系统提供了理论依据。 此外,这种以LLM嵌入为桥梁的视觉认知理解框架,预示着未来能够实现多模态信息的无缝整合。自然语言与视觉感知的统一表征,可能支持大脑不同感官系统间的信息协同和更高层次的认知处理,促进语言与视觉的跨模态学习与推理,开启认知科学的新篇章。
未来研究可进一步探讨不同任务条件下该契合关系的变动性,以及深入解构LLM语义嵌入中哪些成分最核心地对应视觉皮层功能特征。此外,将该方法扩展至非人类灵长类或病理状态下的视觉认知,亦将加深对视觉系统通用原则的理解。 总之,人体视觉系统之复杂性和智能性体现出与先进语言模型对视觉场景语义的惊人契合。借助LLMs的语义嵌入,我们不仅得以量化和模拟人脑对视觉世界的高层认知表征,还拓展了人工智能在模拟人类认知、辅助神经解码等领域的应用潜力。这一跨学科成果是认知神经科学与人工智能结合的鲜明写照,未来必将推动两大领域的共同进步,深刻影响科技创新与认知理解的未来走向。 。