近年来,人工智能领域特别是计算机视觉领域的迅猛发展,引发了学界和工业界对人工视觉系统与人脑视觉系统相似性的广泛关注。随着深度学习模型在图像识别、物体检测等任务上表现出色,越来越多研究致力于解析这些模型的内部表征与人类大脑处理视觉信息的方式之间的关系。特别是近期基于视觉变换器(Vision Transformers, ViT)架构的自监督学习方法如DINOv3,展示出其学习到的视觉表征与人脑活动在空间和时间维度上的高度契合。然而,促使这种大脑与人工视觉模型趋同的具体因素仍存在许多未解之谜。本文将围绕最新研究成果,系统探讨模型架构、训练数据以及训练规模如何独立且交互地塑造计算机视觉模型中出现的"类脑"表征,并揭示其背后潜藏的神经认知机制与发展轨迹。首先,从模型规模的角度来看,研究表明,模型参数数量的增加显著提升了模型生成与人脑视觉区域表征的相似度。
较大的视觉变换器模型不仅能够捕捉更复杂的图像特征,还能在一定程度上模拟大脑的层级信息处理机制。这种尺度优势不仅体现在表征的准确性上,更改变了模型的训练动态,使其能够逐步对大脑中从初级视觉皮层至高级前额叶区域的多级视觉信息进行映射。其次,训练数据的性质亦是决定模型表现和类脑特性的关键因素。相比于使用任意或通用图像数据集,采用以人为中心的图像训练模型能够显著提高与人脑视觉表征的契合度。这种人类中心的数据倾向反映了视觉输入在形成高级视觉语义上的重要性,提示模型更注重捕捉与人类视觉认知相关的对象属性和语境信息。因此,训练数据的选择直接影响了模型是否具备模拟人脑特定视觉区域功能的潜力。
再者,训练时长和训练步骤对于模型达到类脑表现同样不可或缺。研究揭示,视觉变换器模型在训练的早期阶段主要与人脑的初级视觉区域(如视皮层)产生高度相似的表征,随着训练的继续,则逐渐与大脑中负责更高阶视觉处理和认知的区域,如前额叶皮层联系增强。这种训练过程中的发展轨迹,与人脑在成长发育中视觉区域的扩展及功能成熟呈现出惊人的一致性。特别是模型在后期学习到的表征与大脑皮层中厚度最大、发育时间最长、髓鞘化程度最低的区域高度匹配,表明模型"学习时序"映射了大脑视觉发展的关键特征。除了上述关键因素外,该研究还采用多维度评估指标,从整体表征相似度、拓扑组织结构到时间动态特性,全面刻画了模型与大脑视觉系统的契合情况。这种多角度的对比分析不仅增强了结论的可信度,也为未来设计更具类脑特性的视觉模型提供了有力指导。
值得注意的是,上述发现不仅丰富了计算神经科学和人工智能的交叉领域,还对理解人类视觉认知的形成机制产生深远影响。通过解码模型训练过程中表征的演进,我们可窥见大脑视觉系统在信息处理上的发展规律,从而促进设计更有效的人工视觉系统,同时反馈神经科学研究,推动认知模型与神经结构研究的进一步融合。总体来看,大脑与计算机视觉模型的趋同现象是多因素相互作用的结果。模型规模、训练数据类型与数量、训练过程进程等因素在不同层面共同影响人工神经网络的视觉表征形成。更重要的是,这一过程表现出类似于人类大脑视觉系统发育的阶段性特征,为解释为什么现代自监督视觉模型能够逐步展现接近人类的视觉理解提供了科学依据。未来的研究应继续深入探讨其他潜在影响因素,如模型架构中的注意力机制、训练目标函数的多样性以及跨模态视觉-语言数据的融合,为人工智能视觉系统的设计和优化注入更多灵感。
同时,增强对人脑视觉系统功能网络结构的了解,将进一步推动开发符合神经认知原则的高效视觉模型,助力机器更好地模仿人类感知世界的方式。总之,解开大脑与计算机视觉模型间表征趋同的奥秘,不仅为基础科学研究提供了重要线索,也推动了智能技术的创新发展,更加深了我们对视觉认知本质的理解。这一融合领域必将在未来人工智能与神经科学交汇的广阔天地中,发挥越来越关键的桥梁作用。 。