本文探讨了扩散模型中噪声调节的必要性。研究发现,在去除噪声条件后,大多数模型仍能保持相当的性能,展现出“优雅的退化”。研究团队对多个主流模型进行了全面评估,并在不同数据集上测试了无噪声条件模型的表现。这项研究不仅挑战了扩散模型中的一个基本假设,也为未来研究开辟了新的方向,可能有助于更好地理解扩散模型的本质,提高计算效率,以及实现基于分数模型的经典朗之万动力学。
扩散模型通过将不同程度的噪声添加到原始数据中,然后训练神经网络学习如何逐步去除这些噪声。噪声水平作为额外的条件信息输入给神经网络。但最新研究对扩散模型的基础架构提出了质疑,即被广泛认为不可或缺的噪声调节,是否真的那么重要。
为了系统研究噪声调节的问题,研究团队构建了一个统一的数学框架,将各类去噪生成模型统一描述。他们通过对有效目标、后验分布集中性和误差传播进行分析,探讨了移除噪声调节的理论影响。
研究团队在 CIFAR-10、ImageNet 32×32 和 FFHQ 64×64 等数据集上测试了无噪声条件模型的表现。结果显示,大多数模型在去除噪声条件后仍能保持相当的性能,尽管可能存在一定程度的性能衰退。
研究团队还探索了随机性对无噪声条件模型表现的影响。增加采样过程中的随机性能够显著改善模型的性能。此外,他们还发现某些模型在特定配置下可能会出现灾难性失败,这可以通过理论分析得到解释。
这项研究不仅挑战了扩散模型中的一个基本假设,也为未来研究开辟了新的方向。去除噪声条件可能有助于简化模型架构,提高计算效率,并推动基于分数模型的经典朗之万动力学的实现。
![]()
扩散模型的工作原理是在训练过程中,将不同程度的噪声添加到原始数据中,然后训练神经网络学习如何逐步去除这些噪声。在这个过程中,噪声水平(用 t 表示)作为额外的条件信息输入给神经网络。这种设计自 2015 年 Sohl-Dickstein 等人提出以来就被视为扩散模型的标配,并在后续的 DDPM、Stable Diffusion 等知名模型中得到继承。
但美国 MIT 副教授何恺明团队最近但一项成果却对扩散模型的基础架构提出了一个根本性的质疑:被广泛认为不可或缺的噪声调节,真的那么重要吗?
他们的灵感来自传统的图像处理中的“盲去噪”(blind denoising)技术。在计算机视觉研究中,科研人员早已发现,即使不知道具体的噪声水平,仅从被污染的图像本身也能较好地完成去噪任务。这促使研究团队思考:这一发现是否也适用于扩散模型?
为了系统研究这个问题,团队首先构建了一个统一的数学框架,将各类去噪生成模型统一描述。他们的核心动机是孤立神经网络 NN_θ,使我们能够专注于其在噪声条件下的行为。
在这个框架下,模型的训练过程可以表示为:首先从数据分布中采样一张原始图像 x,再加入随机噪声 ε 生成训练样本:
z=a(t)x+b(t)ε
其中 t 表示噪声水平,服从某个预设分布 p(t),而 a(t)和 b(t)则是不同模型采用的 schedule 函数。例如,对于改进版的 DDPM(iDDPM) 来说:
a(t)=√α(t)b(t)=√(1-α(t))
这里的 α(t)采用余弦调度:α(t)=1/2(1+cos(πt/T))。
模型的训练目标是最小化如下损失函数:
L(θ)=Ex,ε,t[w(t)||NNθ(z|t)-r(x,ε,t)||²]
其中 NNθ 代表神经网络,r(x,ε,t)是回归目标,w(t)是权重函数。不同模型主要在这些参数的选择上存在差异。
![]()
图丨现有不同模型使用的调度函数(来源:arXiv)
在给定训练好的神经网络 NNθ 后,生成过程中的采样器会进行迭代去噪。具体来说,对于初始噪声 x0~N(0,b(t_max)²I),采样器会迭代计算:
xi+1=κixi+ηiNNθ(xi|ti)+ζiϵi
基于前述数学框架,研究团队对移除噪声调节的影响进行了系统的理论分析。这个分析包含三个关键部分:
首先是有效目标分析。传统的带噪声调节的模型中,损失函数可以重写为:
L(θ)=Ez~p(z),t~p(t|z)[||NNθ(z|t)-R(z|t)||²]
这里 R(z|t)是一个唯一的有效目标,它代表了所有可能产生相同噪声图像 z 的(x,ε,t)三元组的期望。
当移除噪声调节后,网络 NNθ(z)不再接收 t 作为条件输入,此时其有效目标变为:
L(θ)=Ez~p(z)[||NNθ(z)-R(z)||²]
其中:R(z)=Et~p(t|z)[R(z|t)]
这两个公式揭示了一个重要见解:如果条件分布 p(t|z)接近于狄拉克 δ 函数,那么带条件和无条件的有效目标实际上是等价的。
其次是后验分布集中性分析。研究者进一步证明,对于高维数据(如图像),p(t|z)确实表现出高度集中的特性。具体来说,他们推导出在 Flow Matching 框架下:
给定数据点 x∈[-1,1]ᵈ,噪声 ε~N(0,I),时间 t~U[0,1],以及噪声图像 z=(1-t*)x + t*ε,条件分布 p(t|z)下 t 的方差近似为:
Vart~p(t|z)[t] ≈ t*²/2d
这个结果表明,随着数据维度 d 的增加,方差会迅速减小,这就解释了为什么网络能够准确推断噪声水平,即使没有直接的条件输入。
第三是误差传播分析。研究团队还推导出了无条件模型在采样过程中的误差上界。假设从相同的初始噪声 x₀ 出发:
如果满足以下条件:
那么最终输出的误差满足:||xₙ-x'ₙ||≤A₀B₀+A₁B₁+...+Aₙ₋₁Bₙ₋₁
其中:Aᵢ=∏ⱼ₌ᵢ₊₁ᴺ⁻¹(κᵢ+|ηᵢ|Lᵢ), Bᵢ=|ηᵢ|δᵢ
在此理论分析的指导下,团队进一步设计并实现了一种针对无噪声条件场景的扩散模型变体——uEDM(unconditional EDM)。uEDM 模型在延续传统 EDM 架构优势的基础上,对关键的预处理步骤做出了如下改进:传统 EDM 中,网络输出通常会乘以一个依赖于 t 和数据统计量的系数 cout(t),以调整不同噪声水平下的尺度;而在 uEDM 中,这一系数被直接固定为常数 1,从而迫使网络在没有 t 条件辅助的情况下自行学习数据分布的特征。这一改动不仅简化了模型结构,也降低了由于噪声调节参数估计不准确而引起的误差累积风险。
在实验部分,研究团队对多个主流模型进行了全面评估。在 CIFAR-10 数据集上,他们比较了有无噪声条件下的模型表现。结果令人意外:大多数模型在去除噪声条件后仍能保持相当的性能。具体来看,EDM 模型的 FID 从 1.99 略微上升到 3.36;Flow Matching(1-RF)的 FID 反而从 3.01 下降到 2.61,表现出了性能提升;而研究者提出的 uEDM 模型则将 FID 维持在 2.23 的较低水平。
![]()
图丨在没有噪声条件下,不同方法在 CIFAR-10 上的 FID 分数变化。这里“w/o t”表示没有噪声条件。黄色表示非灾难性(通常是相当不错的)退化;绿色表示改善;红色表示失败(来源:arXiv)
在模型的具体行为方面,研究发现虽然失去噪声条件会导致某种程度的性能衰退,但大多数模型都展现出了“优雅的退化”(graceful degradation)。
生成的图像仍然保持着清晰的形状和结构,只是在细节表现上可能略有不足。特别值得注意的是,基于流的方法(Flow Matching)在无噪声条件下反而获得了更好的效果,这可能与其独特的回归目标设计有关。
不过也存在例外情况。当 DDIM 模型配合确定性 ODE 采样器使用时,去除噪声条件会导致 FID 显著恶化至 40.90。通过对生成样本的分析发现,模型虽然仍能理解基本的形状和结构,但会出现“过冲”或“欠冲”现象,导致图像过度饱和或带有噪声。这种灾难性失败可以通过理论分析得到解释:DDIM 在这种配置下的误差边界会比其他模型高出几个数量级。
研究者还探索了随机性对模型表现的影响。有意思的是,增加采样过程中的随机性能够显著改善无噪声条件模型的性能。例如,当将 DDIM 的随机性参数 λ 从 0(确定性)调整到 1(完全随机)时,模型的性能逐步提升,最终接近 iDDPM 的水平。这一发现意味着随机采样可能通过某种机制帮助补偿了失去噪声条件带来的影响。
![]()
图丨噪声条件模型与噪声无条件模型的样本。样本由 (a) DDIM、(b) EDM、(c) FM (1-RF) 和 (d) uEDM 生成,基于 CIFAR-10 类无条件情况。对于每个子图,左侧面板是噪声条件情况,右侧面板是噪声无条件对应情况,使用相同的随机种子。FID 的变化是从“w/t”到“w/o t”(来源:arXiv)
为了验证结论的普适性,研究团队还在 ImageNet 32×32 和 FFHQ 64×64 等数据集上进行了测试。结果显示,无噪声条件模型的表现模式在这些数据集上也保持一致。在类别条件生成任务中,EDM 的 FID 从 1.76 上升到 3.11,而 FM 则从 2.72 改善到 2.55,进一步证实了之前的发现。
研究团队认为,这项工作不仅挑战了扩散模型中的一个基本假设,也为未来研究开辟了新的方向。首先,去除噪声条件简化了模型架构,这可能有助于我们更好地理解扩散模型的本质。其次,这种简化也可能带来计算效率的提升。更重要的是,正如研究者指出的,只有在没有噪声条件的情况下,基于分数的模型才能学习到真正独特的分数函数,实现经典的朗之万动力学。
![]()
(来源:arXiv )
相关论文以《噪声调节对于去噪生成模型是必要的吗?》(Is Noise Conditioning Necessary for Denoising Generative Models?)为题发表预印本网站 arXiv 上,三位 MIT 大一新生孙启傲(Qiao Sun)、姜志成(Zhicheng Jiang)、赵瀚宏(Hanhong Zhao)为共同一作。其中,孙启傲、姜志成是 IMO(国际数学奥林匹克竞赛)金牌得主,赵瀚宏是 IPhO(国际物理奥林匹克竞赛)金牌得主。
https://arxiv.org/abs/2502.13129
![]()
![]()