视觉变换器(Vision Transformers,简称ViT)已经成为计算机视觉领域中的重要架构,凭借其优越的特征提取能力和灵活的注意力机制,在图像分类、目标检测和分割等多种任务中显示出卓越的性能。然而,随着对视觉变换器机制的深入研究,研究人员发现了一些潜在的问题,特别是关于模型中高范数(high-norm)激活的出现及其对注意力图的影响。这些高范数激活时常集中在某些异常的令牌(tokens)上,导致注意力图噪声较大,进而影响下游视觉任务的表现。传统的方法是通过引入训练寄存器(trained registers)或称寄存器令牌,在模型训练阶段主动学习这些特殊令牌以缓解噪声问题。但这往往需要重新训练整个模型,既费时又费力。最新的研究挑战了这一传统观点,提出了无需训练寄存器即可有效缓解高范数激活带来的问题的创新方法。
这一方法基于对多款视觉变换器(如CLIP、DINOv2)内部机制的深入观察,发现部分稀疏神经元扮演着集中高范数激活的关键角色,这些激活通常聚集在异常令牌上,导致不规则的注意力模式。通过将这些异常高范数激活从发现的寄存器神经元转移到一个额外的未训练令牌,研究人员成功模仿了传统寄存器令牌的作用。这样一来,模型既无需重新训练,也能生成更为干净和有效的注意力图和特征图,大幅提升视觉任务的表现。这种训练自由的方法不仅提升了原有模型的性能,还展现出与显式训练寄存器令牌模型相媲美的效果。更令人振奋的是,该方法被扩展应用于预训练的视觉语言模型,在提升模型解释性方面也取得了显著成果。换言之,测试时使用的寄存器令牌(test-time registers)能够在不改变模型权重的情况下,承担传统寄存器令牌的职责,为任何先前发布但未包含寄存器的模型带来性能和解释力的双重提升。
该发现具有深远的意义。首先,它极大降低了视觉变换器优化的门槛,为广大研究者和开发者提供了一种高效且省时的解决方案。其次,清晰的注意力图有助于理解模型的决策过程,而增强的解释性对于实际应用中的安全性和可靠性尤为关键。再者,这种方法的通用性使得其能够快速应用于各种现有视觉和视觉语言模型,实现性能的即刻升级。随着人工智能视觉模型在医疗诊断、自动驾驶、视频监控等领域的广泛应用,模型的高效性和可解释性成为研发的核心目标。无需训练寄存器的新颖方案无疑为视觉变换器的实用化提供了坚实的技术支撑。
总的来看,最新的视觉变换器研究揭示了模型内部激活的复杂动态,尤其是高范数激活的定位与处理,带来了结构性改进的可能性。通过创新地利用测试时令牌调整机制,科研人员实现了性能与效率的双赢,为视觉领域的未来发展注入了新的动力。展望未来,随着这类训练自由方法的推广和完善,视觉变换器必将以更优的姿态服务于更加多样和复杂的视觉智能应用场景。