近年来,扩散模型在图像、视频、蛋白质结构及材料科学等多种数据领域表现出卓越的生成能力,成为深度学习中生成模型的重要分支。然而,关于扩散模型的内在机制,尤其是其频率空间的生成顺序,学界与业界存在大量讨论和研究。“扩散是光谱自回归”的观点曾一度被广泛接受,认为扩散过程在傅里叶域内呈现类似自回归的频率生成顺序,先生成低频分量,再逐步生成高频细节。本文将深入剖析扩散模型中的频率生成特性,探讨为何这种频率顺序不是扩散模型成功的必要条件,以及不同的扩散策略对生成质量的影响。 扩散模型中的频谱特性与自回归关系 扩散模型通过对数据逐步添加噪声并逆向去噪实现生成过程。以DDPM(扩散概率模型)为例,噪声以白噪声形式加入原始数据。
分析此过程在频域(傅里叶空间)的表现,研究者观察到信号的低频分量自带较高的方差,且高频分量受噪声影响更早、更明显。这使得模型在逆向生成时,低频成分被优先恢复,高频成分随后补充,形成“从低频到高频”的频率生成层次结构。这种观察被称为“近似光谱自回归”,即类似于自回归模型以某种顺序逐步生成频率成分,但该顺序具有柔性和近似性,而非绝对严格的单频逐步生成。 自然图像及视频等多种数据类型均遵循傅里叶功率法则,低频信息远比高频信息具有更高的信号能量和统计方差。这一统计特性使得在扩散的正向过程中,白噪声对高频分量的覆盖效果更早显现,从而使高频信号较早被掩盖。而正是这一过程,塑造了扩散模型逆向过程的频率生成层级:从整体轮廓和低频结构(如图像的基本色块和形状)逐渐转换到纹理和细节等高频信息。
光谱自回归的优势和机制 为何这种频率生成顺序会成为DDPM等主流扩散模型的隐性设计选择?其背后不仅因为数据的统计属性,也因为这种顺序为模型的训练与生成提供了天然的优势。典型的扩散神经网络架构如U-Net,其编码和解码过程利用多尺度特征提取,这与频率分布密切相关。U-Net的下采样操作等同于对信号进行类似哈尔小波的多分辨率分解,低频信号成分在深层网络中较易被捕捉与重构。相较于难以预测的随机噪声,信号的低频成分拥有更高的信噪比,令模型能够从“易学到难学”的频率层次逐层恢复,更好地利用容量和训练信号。 此外,低频优先的生成过程顺序还可能促进生成质量的稳定提升。模型先生成宏观结构、全局布局,然后逐次丰富细节,这种分层思路类似于经典的多分辨率分析和图像压缩标准如JPEG-2000所采用的方案。
在一定程度上也解释了诸如级联扩散模型序列中逐步精细化生成的成功经验。 颠覆传统:无层级无顺序的均等信噪比扩散过程 尽管光谱自回归的渐进生成顺序符合数据统计和神经网络设计上的逻辑,但最新研究表明,这种顺序并非扩散模型的必备条件。学者们设计了一种全新的前向扩散过程,将噪声注入调整为彩色噪声分布,从而使所有频率成分的信噪比变化保持一致。这意味着高频和低频在整个扩散时程中被同等速率地扰动,模型生成时不再经历低频先生成、高频后生成的过程,而是各频率成分并行逆向生成。 这种称为EqualSNR(信噪比均等)的方法,为扩散模型带来了革命性的视角。从图像生成任务的清洁FID(Fréchet Inception Distance)指标来看,EqualSNR扩散模型在多种数据集(包括CIFAR-10,CelebA及LSUN教堂图像)上,与DDPM表现旗鼓相当,甚至在某些配置下略有优势。
更重要的是,无层级频率处理有效缓解了高频信息过早被噪声压制的问题,提高了高频细节的复原质量,这是传统DDPM模型所较弱的环节。 这表明,扩散模型不必拘泥于传统的频率生成顺序。通过调整前向扩散中噪声的频谱分布,可以强化模型对高频细节的捕获及表达,尤其在高频信息占优势的领域如天文图像、遥感和医学影像领域,此策略可能带来质的飞跃。 探讨弱化或反转频率顺序的风险 在尝试翻转频率生成顺序,即先噪声低频分量后噪声高频的FlippedSNR方向时,研究发现在训练和生成过程中表现显著下降。这或许源于低频成分作为整体信息骨架的重要性,在生成高频细节时起到基础作用,若低频处理不足,会严重影响后续复杂细节的推断效果。此发现揭示频率处理顺序需结合数据本身的结构依赖性审慎设计,简单颠倒顺序非理想方案。
另外,选择不同噪声调度和频谱形态,对训练精度、收敛速度和采样稳定性均产生显著影响。部分研究专注寻找最优的噪声调度,基于最小化采样成本或提升逆向过程可逼近性,以更科学的准则指导设计,避免任意调整带来的潜在退化。 扩散模型与自回归模型的区别与启示 自回归模型如大型语言模型(LLMs)按预定规则依次生成数据维度(例如文本中的词序),其生成顺序在很大程度上决定了模型的表现和学习难度。“频谱自回归”一词借鉴了这种思想,暗示扩散模型逆向过程可能遵循一定频率顺序。然而,扩散模型通常用远少于数据维度的步数生成样本,一次可生成多个频率分量,生成过程呈现连续、并行的特点,与严格的自回归生成区别明显。研究结果显示,虽然近似频率顺序在DDPM表现良好,但并非唯一通路。
这种差异也反映了扩散模型对多模态、多分辨率数据更具适应性和灵活性的优势。扩散过程侧重于逐步细化隐含表示,强调迭代式逼近与重建能力,而非刚性序列生成,促进模型在复杂数据分布下的高效学习。 未来展望与研究方向 对扩散模型而言,彻底理解其频率空间的生成机制是提升生成质量和多模态泛化能力的关键。当前研究已突破传统频率顺序限制,提出多样化噪声调度策略,揭示频率选择性扰动对模型性能的丰富影响。此外,如何设计兼顾稳定性、高效采样与细节丰富性的前向噪声过程,体系化分析不同噪声频谱对逆向采样的影响,依然是重要课题。 未来研究应重点关注多频率生成协调、跨频率信息传递机制及其与神经网络结构的契合。
同时,高频信息对感知品质的重要性提示模型设计需针对客户应用场景优化噪声策略,尤其是在医学成像、天文观测等领域。还有待探讨的是如何将频率空间的理论洞察应用于扩散模型的安全性和对抗性,如基于频域特征的生成样本检测和水印技术开发。 结语 总结来看,扩散模型中普遍观察到的低频优先生成特性,虽在现有框架下展现出天然优势,但并非扩散成功的必由之路。通过调整噪声的频谱分布,打破这种频率生成层级,可以实现同样甚至更优的生成效果,尤其在高频信息保持上更具潜力。这一核心认知提醒我们,拓宽对扩散机制的理解与探索,不囿于既有惯例,是推动生成模型未来发展的关键。面对日益多样和复杂的数据需求,持续创新扩散过程设计与优化,将为人工智能生成能力开辟新的天地。
。