随着人工智能技术的飞速发展,生成模型成为推动图像、视频乃至文本合成的核心工具。传统数字生成模型规模庞大,推理过程计算密集,能耗高昂,限制了其在边缘计算和实时应用中的推广。光学生成模型作为融合光学物理机制与机器学习的创新方案,凭借高速且极低功耗的特点,正逐渐引起学术界和产业界的广泛关注。光学生成模型通过将随机噪声数据经数字浅层编码器映射为二维相位图案,这些图案作为生成种子被空间光调制器加载,随后通过自由空间的光波传播与经过联合训练优化的可重构衍射解码器,实现光学上对目标数据分布中新颖图像的快速合成。与传统数字神经网络生成方法不同,除初始噪声生成及浅层数字编码步骤外,光学生成过程几乎不消耗计算能量,图像合成速度接近光速级别,极大提升了能效比和实时性。光学生成模型的灵感源自扩散模型,使用浅层数字编码器快速转换二维高斯噪声为相位调制图,从而激活下游光学系统中的复杂衍射与干涉过程。
衍射解码器由多个可调相位层组成,通过近场或远场的光学传播整合信息,最终在光学传感器上形成符合目标数据分布的高质量图像。该衍射结构的设计是在训练阶段完成的,训练过程中利用已训练的数字扩散模型生成噪声-图像对指导解码器优化。训练完成后,解码器参数保持固定,实现无需数字计算的光学推断。实验部分,研究者在可见光波段构建了基于两个空间光调制器的自由空间光学系统。第一个调制器用于显示由数字编码器生成的相位图案,第二个调制器充当静态可重构的衍射解码器。系统成功实现了包括手写数字、时尚商品、蝴蝶、多色人脸图像及风格化艺术作品在内的多种图像的生成,展示出比肩传统数字生成模型的视觉保真度和多样性。
为了验证模型质量,研究团队采用了被广泛认可的图像质量评估指标,如Inception Score和Fréchet Inception Distance等,系统分析生成图像的多样性及真实性。同时,光学生成模型生成的图像供训练的分类网络表现出了与真实训练数据相当的识别准确率,进一步验证了生成图像分布的真实性。多色光学生成模型利用多个波长依次照明同一空间光调制器,通过共享固定解码器实现了三色图像的合成。此方案兼顾了色彩还原和系统复杂度,适合色彩图像生成需求。相比之下,迭代光学生成模型采用多层解码器和多次迭代生成步骤,以模拟数字扩散模型的逐步去噪过程,从随机高斯噪声递归恢复目标图像。该模型可视为将数字噪声去噪过程延伸到光学域,实现去除数字扩散指导的物理推理,生成更高质量、更具多样性的图像结果。
此外,研究表明无数字编码器的迭代光学模型虽可实施复杂转换,但性能及多样性不及联合训练的混合模型,凸显数字-光学协同训练的重要性。光学生成模型的优势主要体现在能效与速度上。数字扩散模型通常需要数百乃至上千步推理,计算代价和能耗巨大,尤其对高分辨率图像而言尤为明显。光学生成模型仅需一次光学投射即可完成图像合成,光子传播时间低于纳秒级,极大缩短了推理延迟。系统中功耗主要集中于数字编码器和空间光调制器,且随着硬件演进能效将大幅提升。通过将解码器设计为制造工艺实现的静态衍射光学元件,甚至可完全去除电子驱动功耗,实现近乎零功耗的持续图像合成。
尽管光学生成模型具备诸多优势,但其实现仍面临若干挑战。包括实验硬件的光学对准误差、空间光调制器的相位调制位深限制、光学元件材料色散及环境干扰。针对这些问题,研究通过在训练阶段引入物理限制及噪声模拟,提升模型对硬件缺陷的鲁棒性。部分研究探索将解码器设计限制为少量离散相位层级,以适配现有纳米光学加工技术,实现紧凑且稳定的光学硬件。未来,光学生成模型有望在安防加密、隐私保护和多通道信息复用等领域实现创新应用。通过设计多波长、多极化复用的衍射解码器,可实现在同一编码种子下面向不同用户的私密投影,提升多用户情境下的生成内容安全性。
此类光学物理密钥不易逆向破解,为内容分发和访问控制提供新思路。在娱乐、增强现实、虚拟现实领域,光学生成模型能为实时、高质量内容生成带来节能且快速的新方案,支持沉浸式体验和高级人机交互。同时,理念上可扩展至三维成像、动态视频生成等复杂任务,丰富内容生成形态。综上,光学生成模型通过光学物理机制与深度学习算法的深度融合,重塑了人工智能生成内容的技术边界。高速度、高能效以及独特的物理安全特性,结合多波长多通道设计,使其具备广阔的应用前景和研究价值。随着光学硬件与深度学习模型的持续进步,这一新兴领域有望在图像合成、隐私保护以及实时内容生成等关键任务中发挥关键作用,推动智能视觉技术进入一个全新的时代。
。