随着人工智能技术的迅速发展,生成模型成为推动图像合成、自然语言处理乃至新药设计等多个领域进步的核心技术。然而,伴随数字生成模型规模的不断扩展,其计算资源需求与能耗问题日益突出,限制了其在实时、高效场景下的广泛应用。在此背景下,光学生成模型应运而生,融合光学物理与深度学习,旨在实现能效极高且规模可扩展的生成式AI推理。光学生成模型的核心理念,借鉴了扩散模型的发展思路,采用浅层数字编码器将随机高斯噪声映射为相位结构,这些结构被视为光学生成的种子。之后,预先训练的、可重构的光学解码器通过自由空间传播对相位编码进行处理,迅速合成符合目标数据分布的全新图像。值得注意的是,除去照明功率和浅层数字编码器生成随机种子过程中消耗的计算资源,光学生成模型在图像合成环节几乎不消耗计算能量,实现了真正意义上的能量节省。
实验中,研究团队成功演示了多种数据分布下的图像生成,包括手写数字、时尚单品、蝴蝶、人脸以及风格独特的梵高艺术作品等,均达到数字神经网络生成模型的性能水平。这一创新不仅展示了光学生成模型处理复杂视觉信息的能力,也为未来AI生成内容领域开辟了新的硬件实现路径。在具体架构上,光学生成模型由浅层数字编码器和一套自由空间多层光学解码器组成。数字编码器主要负责快速将二维随机噪声转换为二维相位图案,也即光学生成种子,并将该种子加载到空间光调制器(SLM)中。随后,这些带有相位编码的光场在经过优化设计的多层衍射解码器时发生调制和传播,最终在传感器平面形成目标风格的图像。此过程的光学传播速度极快,理论上不足一纳秒,实际生成速度主要受限于SLM的刷新率。
光学生成模型的训练过程借助数字扩散模型作为教师网络,通过教师模型生成的噪声与图像配对数据辅助训练光学模型的编码器和解码器联合优化。这种蒸馏式学习策略极大提升了光学模型捕捉复杂数据分布与生成多样化输出的能力。从性能评估的角度来看,光学生成模型通过知名的图像质量指标如Inception分数(IS)及Fréchet Inception距离(FID)给予了科学验证。实验证明,光学生成模型不仅能够生成与原始数据分布高度一致的新图,还展示出较高的图像多样性和细节丰富度。此外,采用二元分类器对光学生成图像训练的结果显示,这些生成图像具备良好的代表性,能够支撑准确的分类任务。光学生成模型在输出光学能量的利用率上同样表现优异。
通过加入输出衍射效率相关的损失函数,模型能够在保证图像质量的同时提升能量传递效率。更深层的多层解码结构甚至有助于在较高输出效率下保持图像质量,彰显其在应用中实现功耗与性能平衡的潜力。在多光谱图像生成领域,光学生成模型也进行了探索和验证。通过分别对红、绿、蓝通道实现相位编码并在同一解码器上顺序加载多波长光场,成功生成了丰富多彩且细节显著的彩色图像。这一多波长处理框架表明光学生成模型具备适应更复杂视觉内容的能力,为彩色实时图像生成开拓了广阔空间。除了单次瞬拍式生成的光学模型,团队还推出了迭代式光学生成模型,以逐步去噪和恢复目标分布。
该模型采用多解码层结构,并结合多通道相位编码,能够在每个时间步依赖先前输出进行递归更新。此种逐步逼近方法不仅产生更高清晰度和背景清晰的图像,也在训练中有效避免了模式崩溃问题,提升了生成图像多样性。值得一提的是,迭代模型的设计使其拥有去除数字编码器的潜力,即完全依赖光学组件实现分布采样,尽管当前效果尚略逊于联合训练模式,但这为未来实现全光学高效图像生成铺垫了道路。 实验层面,研究团队搭建了基于220纳米可见光激光源、多个SLM和高分辨率图像传感器的自由空间光学系统。系统能够实现多种数据集(如MNIST与Fashion-MNIST)的图像合成,并以达到实际应用需求的FID评估分数予以证明。特别是在高分辨率梵高风格艺术品的生成上,光学生成模型产生的结果不仅与数字扩散教师模型高度一致,更能通过输入随机噪声展示多样化并富有创造性的输出。
此外,借助对相位调制位深和相位编码范围的系统性调研,团队得出允许使用相对低位深的相位调制便能保持较好生成质量的结论。这一发现对使用纳米制造技术制作的被动光学元件(如两光子聚合结构或光刻多层表面)替代可编程SLM提供了理论基础,将大幅降低系统复杂度和功耗。光学生成模型还展现了惊人的隐私保护和信息多路复用能力。通过设计不同的物理解码器,利用波长多路复用技术,即使同一编码器输出相位模式,不同观众仅在正确解码器和对应波长下才能看到对应的图像,大大增加了图像内容的安全性和不可复制性。这种结合硬件密钥的物理层隐私策略,为未来的安全视觉通信及个性化访问控制提供了革命性的解决方案。能效和速度方面,光学生成模型相比传统GPU上运行的大规模数字生成模型,展现出诸多优势。
浅层数字编码器的计算负担相对低廉,且光学解码过程几乎瞬时且不耗电。虽然受限于SLM刷新速率,已有方案通过采用高速相位调制器可进一步缩短响应时间。整体而言,光学生成模型的策略在生成实时、高质量图像且降低碳足迹方面极具价值。展望未来,光学生成模型融合了光子学和人工智能的优势,打造出高效、可扩展及功能丰富的生成框架。预计在边缘计算、增强现实及虚拟现实显示等领域,大规模应用将引领视觉内容生成技术的变革。随着集成光子芯片技术和新型光学元件的发展,光学生成模型有望实现更紧凑、低成本且高性能的硬件部署,广泛惠及智能设备及创意产业。
面对光学模型的挑战,如设备精度和光学误差,集成物理限制进训练过程的策略已展现出良好鲁棒性,指明了工程可行性方向。此外,三维图像生成能力的开发将进一步拓展光学生成模型的应用边界。综上所述,光学生成模型不仅为解决当前数字生成模型的能耗与速度瓶颈提供了创新路径,也开启了未来人工智能视觉合成的新纪元,在学术研究及实际应用中拥有极高的潜力和价值。 。