视觉作为人类感知世界的重要途径,承载着从低级图像处理到高级语义理解的多层次功能。传统上,视觉认知研究重点关注物体识别和基础视觉特征提取,然而,现实世界中的视觉场景远比单一物体复杂,包含丰富的上下文、空间关系及语义交互。近年来,随着人工智能技术,尤其是大型语言模型(LLMs)的快速发展,科学家们开始探索这些语言模型与人脑视觉加工机制之间的潜在联系,试图从多模态融合的视角揭示高级视觉表征的奥秘。 在很大程度上,人类大脑能够将视觉输入转化为复杂的多维信息空间,这一过程涉及大脑中多个视觉皮层区域的层层递进加工。从视网膜初级输入,到颞叶和顶叶的高级视觉区域,不同层级协同作用,实现了对场景中物体身份、空间布局及语义关系的综合分析。过去神经科学在研究视觉加工时,往往依赖特定物体的识别标签或低级图像特征作为模型基础,这在一定程度上限制了对高级场景理解的认知解析。
直到最近,研究者开始借助LLMs对场景描述的文本编码进行建模,开创了从语言语义映射回大脑视觉活动的新思路。 大型语言模型如MPNet等,经过海量文本数据训练,能够捕捉句子中词语之间丰富的上下文关系及世界知识。这些模型生成的语义嵌入向量,除了反映词义之外,还蕴含句子整体语义结构和多维语境,因而能够有效表达复杂场景描述。研究显示,将自然场景图像的人工标注描述通过LLM转换成嵌入空间后,这些向量与人类观看同一场景时脑活动数据呈现高度相关。通过7特斯拉功能磁共振成像(7T fMRI)获得的大规模脑响应数据,科学家们利用多变量编码与解码技术发现,多个高级视觉脑区,尤其是腹侧、侧缘和顶叶视觉处理流,与LLM的表征形式明显吻合。 在方法论层面,通过代表性相似性分析(RSA),研究人员能够量化LLM嵌入与神经活动之间的结构相似度。
这一分析揭示,LLM编码不仅能够预测脑中视觉区域对场景的响应,还能映射不同脑区对人、场景和食品等语义类别的选择性反应。这表明,虽然LLMs没有直接视觉经验,其生成的语言嵌入反映的信息却与大脑对视觉场景的高级理解产生了共振。更进一步,借助线性编码模型,科学家成功预测了特定脑体素(voxel)的活动响应,验证了模型的稳健性和跨被试的泛化能力。 不仅如此,逆向解码实验同样令人振奋。研究者通过训练线性模型将脑活动转换回LLM嵌入空间,然后利用大规模文本库在嵌入字典中寻找最匹配的场景描述,从而实现了从脑信号还原文本描述的突破。这种脑 - 文本经由LLM空间的双向映射,不仅证明了LLM嵌入具备作为神经表示格式的可行性,也为未来的脑机接口和认知解码技术奠定了基础。
为了进一步揭示LLM与大脑视觉编码的契合本质,研究团队设计了一系列控制实验。他们对比了仅基于物体类别的多热编码、非上下文的单词词向量(如fastText、GloVe)与完整场景描述的LLM嵌入。结果表明,完整的LLM嵌入显著优于只包含类别信息或单词平均的向量,强调了复杂语境整合对模拟大脑视觉语义表征的重要性。此外,科学家将场景描述分解为名词、动词和其他词类,发现仅用名词或动词的嵌入无法达到完整句子嵌入与脑活动之间的高度吻合度,这证明了句子内多词汇之间的语义联结是关键。 在模型训练层面,研究开发了基于递归卷积神经网络(RCNN)的视觉编码器,这些网络结构模拟大脑视觉皮层的递进加工特征,以较少的训练图像数量(相比其他模型多出数个数量级)学习将视觉输入映射到LLM空间的能力。令人惊讶的是,经过LLM目标训练的RCNN不仅能重现脑活动响应,而且在预测大脑视觉区神经活动时,表现显著优于传统的基于物体分类训练的模型。
通过严格对比,研究团队排除了训练数据量和模型架构的干扰因素,确认了训练目标对模型与人脑视觉表征一致性的决定性影响。 这一发现不仅拓展了计算神经科学中关于视觉表征的模型范式,也提出了推广认知模型的新可能。通过引入富有语境的语言嵌入作为视觉计算的训练目标,可以促进人工神经网络更好地学习符合人脑视觉信息处理机制的多维表征。更重要的是,这为理解人脑如何整合视觉与语言信息提供了强有力的理论支持,暗示语言模型所蕴含的世界知识和统计结构部分与视觉认知进程深度契合。 尽管LLM与人脑视觉高级表征的相关性获得了实证支持,研究人员也指出两者并非一一对应。人脑视觉系统所保留的信息不仅包含语言可表达的语义成分,还涉及丰富且细节化的视觉空间信息与非语言成分。
因此,结合视觉输入训练的模型仍在预测脑活动中表现出更优性能。同时,LLM训练的模型表达维度低于语言模型本身,这表明这类模型通过视觉与语言间的多模态映射,实现了信息的高效压缩和表达。 展望未来,研究呼吁基于LLM的语义嵌入,构建更加统一和全面的神经表征模型。通过跨越视觉、语言及其他认知领域整合信息,科学家们希望解开多模式感知和高级语义理解的神经基础,探索人脑计算的核心原则。同时,该研究路径有望推动认知神经科学与人工智能的深度融合,推动脑机接口、视觉认知障碍诊断及智能系统设计等领域的革新。 总结来看,人类视觉系统的高级表征与大型语言模型在编码视觉场景的语义信息上表现出惊人的一致性。
LLMs通过其对文本中复杂语境的整合能力,成功捕获了人脑在自然视觉场景处理中展现的多维信息结构。由此构建的视觉到语言的跨模态架构,不仅深化了我们对大脑视觉认知的理解,也开拓了以语言为桥梁连接视觉与认知的创新研究方向。随着更多数据和更先进的模型出现,未来对视脑表征的解码与重构将更加精准,为揭示大脑认知机制提供全新视角,也助力打造更符合人类认知特征的人工智能系统。 。