随着神经科学和人工智能的快速发展,解读大脑活动并将其转化为视觉图像成为科学界和技术界的前沿课题。DREAM(Visual Decoding from REversing HumAn Visual SysteM)项目以其创新的方法引起了广泛关注。该项目通过逆向模拟人类视觉系统 (Human Visual System, HVS) 的本质特点,从脑部功能磁共振成像(fMRI)数据中解码出对应的视觉刺激,实现了基于脑活动的图像重建。DREAM项目不仅为理解人类视觉处理机制提供了新视角,也为未来脑-机接口和视觉解码技术的应用奠定了坚实基础。 人类视觉系统是一个高度复杂且层次分明的结构,包含多条并行且交互的处理路径,用以解析环境中的语义信息、色彩和深度等多维度视觉元素。DREAM项目正是在这个基础上,建立了两条逆向路径,精准模拟视觉信息从大脑反馈至图像的过程。
第一条是逆向视觉联合皮层路线(Reverse Visual Association Cortex, R-VAC),主要负责从fMRI数据中提取语义信息,真实还原观察对象的内容意义。第二条则是逆向并行调色和空间密度路线(Reverse Parallel PKM, R-PKM),同时推断色彩和深度线索,为最终图像提供丰富的色彩层次和空间结构。通过这两条路径的协同作用,DREAM能够综合语义、色彩和深度信息,构建出极具逼真感和细节的视觉重构图像。 在技术实现方面,R-VAC利用多层感知机(MLP)结构,将fMRI中大脑的体素数据映射为包含图像语义的CLIP嵌入。不同于其他方法依赖于扩散先验网络,R-VAC结合对比学习和MSE优化,从fMRI信号中精准捕获语义信息。该方法省去了复杂先验模型的依赖,在保证语义解码性能的同时,实现了更高效的训练。
此外,基于对前沿数据集"自然场景数据集(Natural Scenes Dataset, NSD)"的运用,训练过程得以深入挖掘复杂的视觉语义结构。 而R-PKM则采用分阶段训练策略,第一阶段通过超分辨率编码器提取彩色图像和深度数据的特征表示,第二阶段解码器从这些特征中重建色彩空间和深度图。MiDaS深度估计模型作为深度地面真值的替代方案,为训练提供了准确的深度监督信号。值得一提的是,颜色信息以空间调色板的形式被提取,这种表达方式处理后便能为图像重构提供整体色彩导向,同时避免局部精度不足的限制。训练过程中,模型融合了自监督和监督学习,优化了重建精度和泛化能力。 最终的图像重构由引导图像重建模块(Guided Image Reconstruction, GIR)完成。
该模块利用Color Adapter(颜色适配器)和Depth Adapter(深度适配器),将语义、色彩和深度信息融合至稳定扩散模型(Stable Diffusion)中,实现对最终图像的生成和细节优化。这种组合策略不仅保证了重建图像的逼真度和结构完整性,还能根据不同场景调整权重,提升视觉效果的稳定性和多样性。 DREAM项目不仅在技术架构上创新,其评估方法同样细致。针对重建图像的深度一致性,采用了包括绝对误差(Abs Rel)、平方误差(Sq Rel)、均方根误差(RMSE)及其对数版本等多项指标。色彩评估则结合了色彩差异(Color Discrepancy, CD)和标准化残差平方和(STRESS)等指标,全面衡量重建图像与真实图像在色彩上的逼近程度。此外,DREAM采用了基于地面真值图像和重建图像的深度估计,再结合量化脚本实现大量图像的自动评测,确保结果的科学性与可信度。
该项目的研究团队由伦敦大学学院、Inria法国国家信息与自动化研究所以及剑桥大学的专家组成,其成果已被顶级计算机视觉会议WACV 2024接收,证明了其学术价值和前沿贡献。项目代码开源,依托Python和Shell脚本实现,结合当前最流行的深度学习框架,为后续研究者提供了极具参考价值的资源和工具。 DREAM项目还面临着诸多挑战。例如,尽管色彩和深度的预测在全局场景呈现上效果良好,但局部细节的稳定性仍需改进,部分情况下需要人工调整模型参数以获取理想的图像重建效果。此外,fMRI数据的低时空分辨率及噪声特性为模型训练带来了不小困难,如何提升模型对不同受试对象和刺激场景的泛化能力,是未来研究重点之一。 展望未来,DREAM开创性地将人类视觉系统认知机制与现代深度生成模型相结合,为脑机接口技术注入新的动力。
通过更精细的神经机制模拟,未来或可实现更加自然和高质量的视觉内容解码,助力神经康复、增强现实及智能辅助等应用。多模态数据融合、实时解码及个性化模型训练将是推动该领域进步的关键方向。 总结而言,DREAM项目代表了视觉认知科学与人工智能的深度融合,通过模拟和逆转复杂的人类视觉处理路径,实现了从大脑活动预测详细视觉内容的突破。它不仅揭示了脑部视觉处理的内在机制,也为脑科学、计算机视觉及视觉艺术等跨学科研究提供了丰富的启示和技术储备。随着该技术的成熟与优化,未来人类对大脑的认知和利用方式必将掀开崭新篇章。 。