在认知神经科学和人工智能迅猛发展的今天,理解人脑如何从复杂的视觉输入中提取和整合信息,成为跨学科研究的前沿课题。最新研究证实,人的高级视觉表征与大型语言模型(LLM)所学习的语义空间存在显著的对应关系,这一发现为视觉信息处理和神经表征机制带来了全新的理解方式,同时也对机器学习模型的设计敲响了钟声。人类视觉系统不仅识别视觉场景中的物体,更关键的是捕捉物体之间的空间和语义关系以及它们与环境的动态交互。传统的研究多聚焦于视觉皮层中特定区域对物体类别的响应,但现实中的视觉感知远远超出单一物体识别,它涉及场景环境、上下文语境以及抽象语义的整合。尽管过去几十年有大量关于视觉皮层功能组织以及物体识别的研究,真正能够定量描述大脑对复杂视觉场景所编码的多维信息的计算模型却一直缺乏。富有突破性的进展来自于人工智能领域,尤其是大型语言模型。
尽管LLM本质上是通过海量文本数据训练的语言处理工具,但它们内嵌的语义嵌入展现出对世界知识及复杂上下文的深刻理解,这使得人们开始推测这些模型的语义空间或许能映射人脑在视觉场景处理中的高级表征。当研究者利用7特斯拉功能磁共振成像技术(fMRI),记录参与者观看真实复杂自然场景时的脑活动,并结合图像对应的人类编写文字描述进行深入分析,结果显示LLM对场景描述的嵌入能够有效预测被试的脑部激活模式。具体来说,通过代表性相似性分析(RSA)和线性编码模型,研究团队发现从场景描述生成的LLM语义向量与视觉系统多个高级区域的脑活动呈现高度相关。这种对应性不仅捕捉到不同视觉区域对特定信息的选择性响应,还能利用脑活动数据逆推场景的文字描述,展现出该语义空间与脑部活动的紧密联系。深入分析揭示,这种高度契合很大程度上源于LLM对整句场景描述中复杂语境和多重语义层次的整合能力。简单的物体类别标签或单词嵌入显著不及包含丰富上下文信息的LLM嵌入与脑活动的匹配程度,表明大脑视觉系统对来自环境的多维信息不仅局限于单一元素,而是更倾向于整体语义网络的编码。
此外,受这个发现的启发,研究团队还训练基于卷积和递归结构的神经网络(RCNN),以模拟视觉输入到LLM语义空间的映射。令人惊讶的是,这些神经网络即使训练数据远少于传统的图像识别模型,也能生成比众多先进模型更符合人脑视觉表征的内部活动,这一结果凸显了以语义空间为目标进行网络训练的强大优势。对比实验则更加坚定了这一结论:相同结构的神经网络若以传统的物体类别标签为训练目标,其脑表征拟合效果远不及以LLM标签为目标训练的网络。该研究不仅证明了LLM嵌入是理解大脑视觉表征的有效"桥梁",更为神经科学和人工智能领域提出了全新的研究范式。值得注意的是,LLM虽无视觉输入,但其经过大量文本训练所习得的世界知识、逻辑关系和上下文整合能力,却与人脑视觉系统高级表征高度一致,这或许反映了大脑跨模态信息整合和知识表征的普适性。展望未来,利用LLM的语义嵌入为大脑视觉处理建模,有望突破传统基于类别或低级视觉特征的限制,推动对视觉感知、认知和语言系统交互机制的深入理解。
同时,基于这一理念打造的神经网络模型,也可能在计算效率和数据需求方面对现有视觉模型形成有益补充,促进具备跨模态理解和推理能力的智能系统的发展。此外,由此激发的跨学科探索还将有助于研究不同物种视觉处理的共性,譬如将LLM嵌入映射用于无语言能力的灵长类动物脑成像数据,深化对进化认知机制的认识。当前研究的意义不仅在于验证了一种先进算法模型与生物脑机理的契合度,更在于表明语言模型所代表的高维语义空间,实则蕴藏着对现实世界复杂场景的深刻编码,这种编码同样反映在人脑对视觉刺激的高级加工中。所有这些成果共同绘制了一个令人激动的新蓝图,即人工智能语言模型与人脑视觉系统的交汇将加速揭示知觉与认知的本质。综上所述,人脑高级视觉表征与大型语言模型的语义嵌入存在紧密的对应关系,这一发现不仅深化了我们对视觉信息处理的理解,也为神经科学和人工智能的整合开辟了新的研究路径,预示着未来更加智能、跨模态的神经计算模型的诞生。 。