当前位置：首页 > news >正文

闵行网站建设公司seo教程排名第一

news 2026/2/3 15:57:12

闵行网站建设公司,seo教程排名第一,网站建设有几种方案,互联网推广好做吗去噪扩散恢复模型 Bahjat Kawar 计算机科学系以色列海法理工学院 bahjat.kawarcs.technion.ac.il Michael Elad 计算机科学系以色列海法理工学院 eladcs.technion.ac.il Stefano Ermon 计算机科学系美国加利福尼亚州斯坦福大学 ermoncs.stanford.edu …去噪扩散恢复模型 Bahjat Kawar 计算机科学系以色列海法理工学院 bahjat.kawarcs.technion.ac.il Michael Elad 计算机科学系以色列海法理工学院 eladcs.technion.ac.il Stefano Ermon 计算机科学系美国加利福尼亚州斯坦福大学 ermoncs.stanford.edu 宋嘉明 NVIDIA 美国加利福尼亚州圣克拉拉 jiamingsnvidia.com 摘要许多有趣的图像恢复任务可以被视为线性逆问题。最近的一些方法使用随机算法从给定测量的自然图像的后验分布中采样。然而高效的解决方案通常需要特定问题的监督训练来建模后验分布而非特定问题的无监督方法通常依赖于低效的迭代方法。本文通过引入去噪扩散恢复模型DDRM来解决这些问题这是一种高效的、无监督的后验采样方法。受变分推理的启发DDRM利用预训练的去噪扩散生成模型来解决任何线性逆问题。我们在多个图像数据集上展示了DDRM在超分辨率、去模糊、修复和上色任务中的多功能性并在不同噪声水平下进行了测量。DDRM在重建质量、感知质量和运行时间方面优于当前领先的无监督方法在ImageNet数据集上表现尤为突出比最近的竞争对手快5倍。DDRM还能够很好地推广到超出ImageNet训练集分布的自然图像。 1 引言图像处理中的许多问题包括超分辨率、去模糊、修复、上色和压缩感知都是线性逆问题的实例其目标是从通过已知线性退化模型获得的可能有噪声的测量中恢复图像。对于特定的退化模型图像恢复可以通过神经网络的端到端监督训练来解决使用原始图像和退化图像的配对数据。然而现实世界的应用如医学成像通常需要灵活应对多个、可能无限的退化模型。在这种情况下基于学习先验的无监督方法可能更可取因为它们可以在不重新训练的情况下适应给定的问题。通过学习对图像的潜在结构如先验、近似算子或去噪器的合理假设无监督方法可以在不针对特定退化模型进行训练的情况下实现有效恢复。图1:使用20步DDRM在超分辨率、去模糊、上漆和上色、有或没有噪声以及无条件生成模型下的测量和恢复图像对。在训练期间不访问图像。在这种无监督设置下基于深度神经网络的先验在各种图像恢复任务中展示了令人印象深刻的经验结果。为了恢复信号大多数现有方法从神经网络中获得关于信号的先验相关项如自然图像的分布和退化模型的似然项并将这两个项结合形成信号的后验分布逆问题可以被表述为优化问题或采样问题。然后这些问题通常通过迭代方法解决如梯度下降或朗之万动力学这可能在计算上要求高且对超参数调整敏感。一个极端的例子是“快速”算法版本使用15,000次神经函数评估。受这种无监督工作的启发我们引入了一种名为去噪扩散恢复模型DDRM的高效方法可以在仅需20次神经函数评估的情况下实现竞争结果。DDRM是一个去噪扩散生成模型它逐渐并随机地将样本去噪至所需输出条件是测量值和逆问题。通过引入一个变分推理目标来学习逆问题的后验分布并展示其与无条件去噪扩散生成模型目标的等价性使得我们能够在各种线性逆问题中部署这些模型。我们通过比较各种基于学习先验的竞争方法如深度生成先验DGP、SNIPS和通过去噪正则化RED展示了DDRM的经验有效性。在ImageNet示例中DDRM在无噪声超分辨率和去模糊任务中大多数情况下优于神经网络基准并且在仅次于最佳的情况下其效率至少提高了50倍。我们的优势在测量噪声涉及时变得更大因为迭代方法产生的噪声伪影在我们的方法中不会出现。在各种真实图像上我们进一步展示了DDRM在超分辨率、去模糊、修复和上色任务中的效果。用ImageNet训练的DDRM在超出其训练集分布的图像上也表现良好。 2 背景线性逆问题。一般线性逆问题被表述为我们旨在从测量值y恢复信号x其中H是已知的线性退化矩阵z是具有已知方差的i.i.d.加性高斯噪声。左图独立于逆问题右图依赖于逆问题图2:一个特定的反问题(超分辨率去噪)的DDRM方法示意图。我们可以使用无监督DDPM模型作为DDRM目标的一个很好的解决方案。 \( x \) 的潜在结构可以通过生成模型 \( p_\theta(x) \) 表示。给定 \( y \) 和 \( H \)可以表述信号的后验分布 \( p_\theta(x|y) \propto p_\theta(x)p(y|x) \)其中“似然”项 \( p(y|x) \) 通过方程 (1) 定义这种方法利用学习到的先验 \( p_\theta(x) \)我们称之为“无监督”方法因为先验不一定依赖于逆问题。通过从这个后验中采样可以恢复 \( x \)这可能需要很多迭代才能产生好的样本。或者也可以通过自适应推理即监督学习学习一个模型来近似这个后验该模型学习预测 \( x \)给定由 \( x \) 和特定 \( H \) 生成的 \( y \)。尽管这可能比基于采样的方法更高效但它可能在没有训练过的逆问题上泛化能力较差。去噪扩散概率模型DDPM。生成模型学习到的结构已经应用于各种逆问题并且通常优于基于数据无关结构约束如稀疏性的方法。这些生成模型通过样本学习一个模型分布 \( p_\theta(x) \) 来逼近数据分布 \( q(x) \)。特别是扩散模型在图像上的无条件生成建模性能表现出色。扩散模型是具有马尔可夫链结构的生成模型其联合分布为在生成模型中仅保留 \( x_0 \) 作为样本。为了训练扩散模型引入了固定的、因式分解的变分推理分布这导致了最大似然目标的证据下界ELBO。一些扩散模型的一个特殊性质是所有 \( t T \) 的 \( p_\theta^{(t)} \) 和 \( q^{(t)} \) 都被选择为条件高斯分布并且 \( q(x_t|x_0) \) 也是一个具有已知均值和协方差的高斯分布即 \( x_t \) 可以被视为直接受到高斯噪声污染的 \( x_0 \)。因此ELBO 目标可以简化为以下去噪自动编码器目标其中 \( f_\theta^{(t)} \) 是一个 θ 参数化的神经网络旨在从噪声 \( x_t \) 中恢复无噪声观测值并且 \( \gamma_1:T \) 是一组依赖于 \( q(x_{1:T}|x_0) \) 的正系数。 3 去噪扩散恢复模型基于后验采样的逆问题求解器经常面临两难境地无监督方法适用于一般问题但效率低下而监督方法高效但只能解决特定问题。为了解决这个难题我们引入了去噪扩散恢复模型DDRM一个针对一般线性逆问题的无监督求解器能够处理测量中有噪声或无噪声的任务。DDRM 高效且在与流行的无监督求解器如 RED, DGP, SNIPS相比时表现出竞争力。 DDRM 的关键思想是找到一个适合监督学习目标的无监督解决方案。首先我们描述 DDRM 在特定逆问题上的变分目标第 3.1 节。接下来我们介绍适用于线性逆问题的 DDRM 特定形式并允许直接使用预训练的无条件和类别条件扩散模型第 3.2 节和第 3.3 节。最后我们讨论计算和内存高效的实际算法第 3.4 节和第 3.5 节。 3.1 DDRM 的变分目标对于任何线性逆问题我们将 DDRM 定义为条件于 \( y \) 的马尔可夫链其中而 x0是最终的扩散输出。为了进行推理我们考虑以下条件于 \( y \) 的因式分解变分分布这导致了条件于 \( y \) 的扩散模型的 ELBO 目标。在本节的其余部分中我们在给定 \( H \) 和 \( \sigma_y \) 的情况下构建合适的变分问题并将其与无条件扩散生成模型联系起来。为了简化符号我们将构建变分分布 \( q \)使得 \( 其中。在附录 B 中我们将展示这等同于 DDRM 和 DDIM 中引入的分布最多对 \( x_t \) 进行固定线性变换。 3.2 图像恢复的扩散过程类似于 SNIPS我们考虑 \( H \) 的奇异值分解SVD并在其光谱空间中进行扩散。其背后的思想是将测量值 \( y \) 中的噪声与 \( x_{1:T} \) 中的扩散噪声联系起来确保扩散结果 \( x_0 \) 忠实于测量值。通过使用 SVD我们识别 \( y \) 中缺失的数据并通过扩散过程进行合成。同时\( y \) 中的噪声数据进行去噪处理。例如在带噪声的修复中例如光谱空间只是像素空间因此模型应生成缺失的像素并对 \( y \) 中观察到的像素进行去噪。对于一般的线性 \( H \)其 SVD 为其中 \( U \) 和 \( V \) 是正交矩阵\( \Sigma \) 是包含 \( H \) 奇异值的矩形对角矩阵按降序排列。我们假设 \( m 小于n \)但我们的方法也适用于 \( m n \)。我们将奇异值表示为我们使用光谱空间中的值的简写表示\( x_t^{(i)} \) 是向量 \( x_t V^T x_t \) 的第 \( i \) 个索引\( y^{(i)} \) 是向量 \(的第 \( i \) 个索引其中 \( \dagger \) 表示 Moore–Penrose 伪逆。因为 \( V \) 是正交矩阵我们可以通过左乘 \( V \) 精确恢复 \( x_t \)。对于光谱空间中的每个索引 \( i \)我们定义变分分布为其中 \( \eta \in (0, 1] \) 是控制转变方差的超参数且 \( \eta \) 和 \( \eta_b \) 可以依赖于 \( \sigma_t, s_i, \sigma_y \)。我们进一步假设 \( \sigma_T \大于等于\sigma_y}除以{s_i} \) 对于所有正 \( s_i \)。在以下陈述中我们展示了这种构造具有类似于无条件扩散模型中推理分布的“高斯边缘”性质。命题 3.1. 定义在方程 4 和 5 中的条件分布 \( q^{(t)} \) 满足以下条件 \[ q(x_t|x_0) N(x_0, \sigma_t^2 I)\] 通过对 \( x_{t} \) 对于所有 \( t t \)和 \( y \) 进行边缘化定义其中 \( q(y|x_0) \) 按照方程 (1) 中的定义 \( x x_0 \)。证明在附录 C 中。直观上我们的构造考虑了光谱空间中每个索引的不同情况。(i) 如果相应的奇异值为零则 \( y \) 不直接提供该索引的任何信息更新类似于常规无条件生成。(ii) 如果奇异值非零则更新考虑 \( y \) 提供的信息这进一步取决于光谱空间中测量噪声水平 (\( \sigma_y / s_i \)) 是否大于扩散模型中的噪声水平 (\( \sigma_t \))对于这两种情况光谱空间中的测量 \( y^{(i)} \) 会有所不同以确保命题 3.1 成立。现在我们已经将 \( q^{(t)} \) 定义为一系列高斯条件分布我们也将我们的模型分布 \( p_\theta \) 定义为一系列高斯条件分布。类似于 DDPM我们旨在在每一步 \( t \) 获取对 \( x_0 \) 的预测为了简化符号我们用符号 \( x_{\theta,t} \) 表示模型 \( f_\theta(x_{t1}, t1) \) 在时间步 \( t1 \) 上的预测。我们还将 \( x_{\theta,t}^{(i)} \) 定义为 \( x_{\theta,t} V^T x_{\theta,t} \) 的第 \( i \) 个索引。我们定义 DDRM 的可训练参数 \( \theta \) 如下 \[ p_\theta^{(T)}(x_T^{(i)}|y) \begin{cases} N(y^{(i)}, \sigma_T^2 - \frac{\sigma_y^2}{s_i^2}) \text{如果} \, s_i 0 \\ N(0, \sigma_T^2) \text{如果} \, s_i 0 \end{cases} \] \[ p_\theta^{(t)}(x_t^{(i)}|x_{t1}, y) \begin{cases} N(x_{\theta,t}^{(i)} \sqrt{1 - \eta^2 \sigma_t^2} \frac{x_{t1}^{(i)} - x_{\theta,t}^{(i)}}{\sigma_{t1}}, \eta^2 \sigma_t^2) \text{如果} \, s_i 0 \\ N(x_{\theta,t}^{(i)} \sqrt{1 - \eta^2 \sigma_t^2} \frac{y^{(i)} - x_{\theta,t}^{(i)}}{\sigma_y / s_i}, \eta^2 \sigma_t^2) \text{如果} \, \sigma_t \frac{\sigma_y}{s_i} \\ N((1 - \eta_b) x_{\theta,t}^{(i)} \eta_b y^{(i)}, \sigma_t^2 - \frac{\sigma_y^2}{s_i^2} \eta_b^2) \text{如果} \, \sigma_t \geq \frac{\sigma_y}{s_i} \end{cases} \] 与方程 (4) 和 (5) 中的 \( q^{(t)} \) 相比我们的 \( p^{(t)}_\theta \) 定义仅在 \( t T \) 时用我们预测的 \( x_{\theta,t} \) 代替 \( x_0 \)因为我们在采样时不知道 \( x_0 \)在 \( t T \) 时用 0 代替 \( x_0 \)。可以学习这些方差或者考虑其他在命题 3.1 中成立的构造我们将这些选项留待未来的工作。 3.3 “学习”图像恢复模型一旦我们通过选择 \( \sigma_{1:T} \)\( \eta \) 和 \( \eta_b \) 定义了 \( p^{(t)}_\theta \) 和 \( q^{(t)} \)我们可以通过最大化由此产生的 ELBO 目标来学习模型参数 \( \theta \)详见附录 A。然而这种方法并不理想因为我们必须为每个逆问题给定 \( H \) 和 \( \sigma_y \)学习一个不同的模型这对于任意逆问题来说不够灵活。幸运的是这不一定是必需的。在以下陈述中我们展示了在合理的假设下DDPM / DDIM 的最佳解也可以是 DDRM 问题的最佳解。定理 3.2. 假设模型 \( f_\theta^{(t)} \) 和 \( f_\theta^{(t)} \) 在 \( t \neq t \) 时没有权重共享那么当 \( \eta 1 \) 且 \( \eta_b \frac{2 \sigma_t^2}{\sigma_t^2 \sigma_y^2 / s_i^2} \) 时DDRM 的 ELBO 目标详见附录 A可以重写为方程 (2) 中的 DDPM / DDIM 目标。证明见附录 C。即使选择不同的 \( \eta \) 和 \( \eta_b \)证明也显示 DDRM 目标在光谱空间中是加权平方误差因此预训练的 DDPM 模型是最佳解的良好近似。因此我们可以使用相同的扩散模型不考虑逆问题应用于方程 (7) 和 (8) 中的更新并且仅对各种线性逆问题修改 \( H \) 及其 SVD\( U, \Sigma, V \)。 3.4 DDRM 的加速算法典型的扩散模型通过许多时间步如 1000训练以实现最佳的无条件图像合成质量但由于需要许多 NFEs采样速度较慢。以前的工作通过合适的更新规则“跳过”步骤来加速这一过程。对于 DDRM 也是如此因为我们可以为任何选择的增加的 \( \sigma_{1:T} \) 获得方程 (2) 中的去噪自动编码器目标。对于预训练的具有 \( T \) 时间步的扩散模型我们可以选择 \( \sigma_{1:T} \) 为训练中使用的 \( T \) 步中的子集。 3.5 高效内存的SVD 我们的方法类似于SNIPS利用退化算子\(H\)的奇异值分解SVD。在这两种算法以及其他方法如Plug and PlayPnP中存储矩阵\(V\)的空间复杂度为\(\Theta(n^2)\)对于大小为\(n\)的信号来说这是内存消耗的瓶颈。通过利用\(H\)矩阵的特殊属性我们可以将这种复杂度降低到\(\Theta(n)\)适用于去噪、修复、超分辨率、去模糊和上色详情见附录D。 4 相关工作针对不同设置提出了各种深度学习解决方案来解决逆问题。我们专注于无监督设置即在训练时可以访问干净图像的数据集但退化模型仅在推理时已知。这个设置本质上适用于所有线性逆问题这在许多现实世界应用如医学成像中是一个理想特性。表1在ImageNet 1K256×256上的无噪声4×超分辨率和去模糊结果。 | 方法 | 4×超分辨率 | 去模糊 | | ---- | ------------ | ------- | | | PSNR↑ | SSIM↑ | KID↓ | NFEs↓ | PSNR↑ | SSIM↑ | KID↓ | NFEs↓ | | Baseline | 25.65 | 0.71 | 44.90 | 0 | 19.26 | 0.48 | 38.00 | 0 | | DGP | 23.06 | 0.56 | 21.22 | 1500 | 22.70 | 0.52 | 27.60 | 1500 | | RED | 26.08 | 0.73 | 53.55 | 100 | 26.16 | 0.76 | 21.21 | 500 | | SNIPS | 17.58 | 0.22 | 35.17 | 1000 | 34.32 | 0.87 | 0.49 | 1000 | | DDRM | 26.55 | 0.72 | 7.22 | 20 | 35.64 | 0.95 | 0.71 | 20 | | DDRM-CC | 26.55 | 0.74 | 6.56 | 20 | 35.65 | 0.96 | 0.70 | 20 | 几乎所有无监督逆问题求解器都在迭代方案中利用训练过的神经网络。PnP、RED及其后续方法在迭代优化算法如最速下降、固定点或交替方向法ADMM中应用去噪器。OneNet训练网络直接学习ADMM的近似算子。在不同迭代算法中使用去噪器的类似用法见。一些方法通过在生成模型的潜在空间中搜索一个生成图像使其在退化后尽可能接近给定测量值。多种此类方法主要集中于生成对抗网络GANs在特定类别图像上表现出色特别是面部图像但在更为多样的数据集如ImageNet上表现并不理想。深度生成先验DGP通过优化潜在输入及GAN生成器的权重来缓解这一问题。最近去噪扩散模型被用于在监督和无监督设置下解决逆问题。与以前的方法不同大多数基于扩散的方法可以成功从噪声显著的测量中恢复图像。然而这些方法非常慢通常需要数百或数千次迭代并且尚未在多样化数据集上得到验证。我们的方法受到变分推理的启发通过获取特定问题的非平衡更新规则在更少的迭代中实现高质量解决方案。 ILVR建议了一种处理无噪声超分辨率的扩散方法可以在250步内运行。在附录H中我们证明了ILVR在应用于相同的基础生成扩散模型时是DDRM的特例。因此ILVR可以进一步加速到20步但与DDRM不同它没有处理测量噪声的明确方法。类似地另一种方法建议了一种针对逆问题的得分基求解器可以在少量迭代中收敛但不处理测量中的噪声。 5 实验 5.1 实验设置我们使用在CelebA-HQLSUN卧室和LSUN猫均为256×256像素上训练的扩散模型来展示我们算法的能力。我们在FFHQ图像和考虑的LSUN类别的网络图片上测试这些模型。此外我们使用在ImageNet 256×256和512×512的训练集上训练并在相应验证集上测试的模型。一些ImageNet模型需要类别信息。对于这些模型我们使用真实标签作为输入并将我们的算法标记为DDRM类条件DDRM-CC。在所有实验中我们使用η0.85ηb1并基于1000步预训练模型的均匀间隔时间步调度更多细节见附录E。每个实验中报告了NFEs时间步数。在我们展示的每个逆问题中像素值在[0, 1]范围内并且退化测量值通过以下方式获得i对于超分辨率我们使用块平均滤波器将图像按每轴2、4或8的比例缩小ii对于去模糊图像通过9×9的均值滤波器模糊且低于某一阈值的奇异值被置零使问题更加病态。iii对于上色灰度图像是原始图像红、绿、蓝通道的平均值iv对于修复我们用文本覆盖或随机删除50%的像素来掩盖原始图像的部分。可以选择性地在所有逆问题的测量中添加加性白高斯噪声。此外我们在附录I中进行了双三次超分辨率和各向异性高斯核去模糊的实验。我们的代码可在[此处](https://github.com/bahjat-kawar/ddrm)获得。 5.2 定量实验为了量化DDRM的性能我们专注于其多样性ImageNet数据集。在每个实验中我们报告了峰值信噪比PSNR和结构相似性指数测量SSIM来衡量对原始图像的忠实度并使用核Inception距离KID乘以103来衡量生成图像质量。我们将DDRM20和100步与其他可以在合理时间内运行需要1500个NFEs或更少并能够在ImageNet上操作的无监督方法进行比较。即我们与REDDGP和SNIPS进行了比较。每种方法的确切设置详见附录F。我们对DGP、RED和SNIPS使用相同的超参数来处理有噪声和无噪声版本的同一问题因为为每个版本调整它们的超参数会削弱它们的无监督特性。然而如附录F所示即使对基线方法如RED进行这种调整其性能也不会超过DDRM。此外我们展示了双三次插值作为超分辨率的基线以及模糊图像本身作为去模糊的基线。由于OneNet限制在64×64尺寸的图像上并且泛化到更高维度需要改进的网络架构因此未包含在比较中。我们在每个ImageNet类别的一个验证集图像上评估所有方法的4×超分辨率和去模糊问题。表1显示DDRM在所有指标和问题上都优于所有基线方法仅在20步内。唯一的例外是SNIPS在无噪声去模糊中的KID优于DDRM但需要50倍更多的NFEs。请注意所有测试方法的运行时间与NFEs完美线性单次迭代的时间差异可以忽略不计。DGP和DDRM-CC使用测试图像的真实类别标签来帮助恢复过程因此具有不公平的优势。当在测量中添加显著噪声时DDRM相对于以前的方法更加吸引人。在这种情况下DGP、RED和SNIPS都无法生成可行的结果如表2和图4所示。由于DDRM快速我们也在附录F中对整个ImageNet验证集进行了评估。 5.3 定性实验 DDRM在所有测试的数据集和问题上产生高质量的重建如图1和图3以及附录I所示。作为一种后验采样算法DDRM可以为同一输入生成多个输出如图5所示。此外无条件的ImageNet扩散模型可以用于解决具有一般内容的超出分布的图像的逆问题。在图6中我们展示了DDRM成功恢复的来自USC-SIPI的256×256图像这些图像不一定属于任何ImageNet类更多结果见附录I。 6 结论我们引入了DDRM一个基于无条件/类条件扩散生成模型作为学习先验的一般采样线性逆问题求解器。受变分推理的启发DDRM只需少量的NFEs例如20次相比其他基于采样的基线例如SNIPS需要1000次并在多个有用场景中实现可扩展性包括去噪、超分辨率、去模糊、修复和上色。我们在各种问题和数据集上展示了DDRM的实证成功包括超出训练集分布的自然图像。就我们所知DDRM是第一个有效地从有显著噪声的逆问题的后验分布中进行采样并能在具有一般内容的自然图像上工作的无监督方法。在未来的工作中除了进一步优化时间步和方差调度外还可以研究以下方面i将DDRM应用于非线性逆问题ii处理退化算子未知的场景iii受DDRM启发的自监督训练技术以及用于监督技术的技术进一步提高无监督模型在图像恢复中的性能。致谢我们感谢Kristy Choi、Charlie Marx和Avital Shafran的深刻讨论和反馈。该研究得到了NSF#1651565, #1522054, #1733686、ONRN00014-19-1-2145、AFOSRFA9550-19-1-0024、AROW911NF-21-1-0125、Sloan Fellowship、Amazon AWS、Stanford Institute for Human-Centered Artificial Intelligence (HAI)、Google Cloud、以色列科学基金会ISF#335/18、以色列高等教育委员会 - 规划与预算委员会和Stephen A. Kreynes Fellowship的支持。参考文献 [1] Richard G Baraniuk. Compressive sensing [lecture notes]. IEEE signal processing magazine, 24(4):118–121, 2007. [2] Johnathan M Bardsley. Mcmc-based image reconstruction with uncertainty quantification. SIAM Journal on Scientific Computing, 34(3):A1316–A1332, 2012. [3] Johnathan M Bardsley, Antti Solonen, Heikki Haario, and Marko Laine. Randomize-then-optimize: A method for sampling from posterior distributions in nonlinear inverse problems. SIAM Journal on Scientific Computing, 36(4):A1895–A1910, 2014. [4] Christopher M Bishop. Pattern recognition. Machine learning, 128(9), 2006. [5] Mikołaj Binkowski, Danica J. Sutherland, Michael Arbel, and Arthur Gretton. Demystifying MMD GANs. In International Conference on Learning Representations, 2018. [6] Yochai Blau and Tomer Michaeli. The perception-distortion tradeoff. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 6228–6237, 2018. [7] Ashish Bora, Ajil Jalal, Eric Price, and Alexandros G. Dimakis. Compressed sensing using generative models. In Proceedings of the 34th International Conference on Machine Learning, volume 70, pages 537–546, 2017. [8] Daniela Calvetti and Erkki Somersalo. Hypermodels in the bayesian imaging framework. Inverse Problems, 24(3):034013, 2008. [9] Jooyoung Choi, Sungwon Kim, Yonghyun Jeong, Youngjune Gwon, and Sungroh Yoon. Ilvr: Conditioning method for denoising diffusion probabilistic models. arXiv preprint arXiv:2108.02938, 2021. [10] Hyungjin Chung, Byeongsu Sim, and Jong Chul Ye. Come-closer-diffuse-faster: Accelerating conditional diffusion models for inverse problems through stochastic contraction. arXiv preprint arXiv:2112.05146, 2021. [11] Giannis Daras, Joseph Dean, Ajil Jalal, and Alex Dimakis. Intermediate layer optimization for inverse problems using deep generative models. In Proceedings of the 38th International Conference on Machine Learning, volume 139, pages 2421–2432, 2021. [12] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Li Fei-Fei. ImageNet: A large-scale hierarchical image database. In 2009 IEEE Conference on Computer Vision and Pattern Recognition, pages 248–255, 2009. [13] Prafulla Dhariwal and Alexander Quinn Nichol. Diffusion models beat GANs on image synthesis. In Thirty-Fifth Conference on Neural Information Processing Systems, 2021. [14] Chao Dong, Chen Change Loy, Kaiming He, and Xiaoou Tang. Image super-resolution using deep convolutional networks. IEEE transactions on pattern analysis and machine intelligence, 38(2):295–307, 2015. [15] Jinjin Gu, Yujun Shen, and Bolei Zhou. Image processing using multi-code gan prior. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 3012–3021, 2020. [16] Bichuan Guo, Yuxing Han, and Jiangtao Wen. Agem: Solving linear inverse problems via deep priors and sampling. Advances in Neural Information Processing Systems, 32, 2019. [17] Muhammad Haris, Gregory Shakhnarovich, and Norimichi Ukita. Deep back-projection networks for super-resolution. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 1664–1673, 2018. [18] Martin Heusel, Hubert Ramsauer, Thomas Unterthiner, Bernhard Nessler, and Sepp Hochreiter. Gans trained by a two time-scale update rule converge to a local nash equilibrium. In Advances in Neural Information Processing Systems, volume 30, 2017. [19] Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models. In Advances in Neural Information Processing Systems, volume 33, pages 6840–6851, 2020. [20] Ajil Jalal, Marius Arvinte, Giannis Daras, Eric Price, Alex Dimakis, and Jonathan Tamir. Robust compressed sensing mri with deep generative priors. In Thirty-Fifth Conference on Neural Information Processing Systems, 2021. [21] Ajil Jalal, Sushrut Karmalkar, Alex Dimakis, and Eric Price. Instance-optimal compressed sensing via posterior sampling. In Proceedings of the 38th International Conference on Machine Learning, volume 139, pages 4709–4720, 2021. [22] Zahra Kadkhodaie and Eero Simoncelli. Stochastic solutions for linear inverse problems using the prior implicit in a denoiser. Advances in Neural Information Processing Systems, 34, 2021. [23] Tero Karras, Timo Aila, Samuli Laine, and Jaakko Lehtinen. Progressive growing of GANs for improved quality, stability, and variation. In International Conference on Learning Representations, 2018. [24] Tero Karras, Samuli Laine, and Timo Aila. A style-based generator architecture for generative adversarial networks. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 4401–4410, 2019. [25] Bahjat Kawar, Gregory Vaksman, and Michael Elad. SNIPS: Solving noisy inverse problems stochastically. In Thirty-Fifth Conference on Neural Information Processing Systems, 2021. [26] Bahjat Kawar, Gregory Vaksman, and Michael Elad. Stochastic image denoising by sampling from the posterior distribution. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV) Workshops, pages 1866–1875, October 2021. [27] Diederik P Kingma and Max Welling. Auto-Encoding variational bayes. arXiv preprint arXiv:1312.6114v10, December 2013. [28] Orest Kupyn, Tetiana Martyniuk, Junru Wu, and Zhangyang Wang. Deblurgan-v2: Deblurring (orders-of-magnitude) faster and better. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 8878–8887, 2019. [29] Gustav Larsson, Michael Maire, and Gregory Shakhnarovich. Learning representations for automatic colorization. In European conference on computer vision, pages 577–593. Springer, 2016. [30] Rémi Laumont, Valentin De Bortoli, Andrés Almansa, Julie Delon, Alain Durmus, and Marcelo Pereyra. Bayesian imaging using plug play priors: When Langevin meets Tweedie. arXiv preprint arXiv:2103.04715, 2021. [31] 表1在ImageNet 1K256×256上的无噪声4×超分辨率和去模糊结果继续。 [31] Christian Ledig, Lucas Theis, Ferenc Huszár, Jose Caballero, Andrew Cunningham, Alejandro Acosta, Andrew Aitken, Alykhan Tejani, Johannes Totz, Zehan Wang, 等。使用生成对抗网络进行照片级单图像超分辨率。在计算机视觉与模式识别会议CVPR上发表2017年。 [32] Gary Mataev, Peyman Milanfar, 和 Michael Elad。DeepRED深度图像先验驱动的RED。在IEEE/CVF国际计算机视觉会议工作坊上发表2019年。 [33] Sachit Menon, Alex Damian, McCourt Hu, Nikhil Ravi, 和 Cynthia Rudin。通过生成模型的潜在空间探索实现自监督照片放大。在IEEE计算机视觉与模式识别会议CVPR上发表2020年6月。 [34] Chris Metzler, Ali Mousavi, 和 Richard Baraniuk。基于深度先验和采样的线性逆问题解法。在Neural Information Processing Systems大会NeurIPS上发表2017年。 [35] Alex Nichol 和 Prafulla Dhariwal。改进的去噪扩散概率模型。arXiv预印本 arXiv:2102.096722021年。 [36] Gregory Ongie, Ajil Jalal, Christopher A Metzler, Richard G Baraniuk, Alexandros G Dimakis, 和 Rebecca Willett。成像逆问题的深度学习技术。IEEE信息理论精选领域期刊1(1):39-562020年。 [37] Gregory Ongie, Ajil Jalal, Christopher A Metzler, Richard G Baraniuk, Alexandros G Dimakis, 和 Rebecca Willett。成像逆问题的深度学习技术。IEEE信息理论精选领域期刊1(1):39-562020年。 [38] Xingang Pan, Xiaohang Zhan, Bo Dai, Dahua Lin, Chen Change Loy, 和 Ping Luo。利用深度生成先验进行多功能图像恢复和操纵。在欧洲计算机视觉会议ECCV上发表2020年。 [39] JH Rick Chang, Chun-Liang Li, Barnabas Poczos, BVK Vijaya Kumar, 和 Aswin C Sankaranarayanan。一个网络解决所有问题——使用深度投影模型解决线性逆问题。在IEEE国际计算机视觉会议上发表2017年。 [40] Yaniv Romano, Michael Elad, 和 Peyman Milanfar。小引擎也能发挥大作用通过去噪进行正则化RED。SIAM图像科学期刊10(4):1804-18442017年。 [41] Chitwan Saharia, William Chan, Huiwen Chang, Chris A Lee, Jonathan Ho, Tim Salimans, David J Fleet, 和 Mohammad Norouzi。Palette图像到图像的扩散模型。arXiv预印本 arXiv:2111.058262021年。 [42] Chitwan Saharia, Jonathan Ho, William Chan, Tim Salimans, David J Fleet, 和 Mohammad Norouzi。通过迭代精炼实现图像超分辨率。arXiv预印本 arXiv:2104.076362021年。 [43] Shibani Santurkar, Dimitris Tsipras, Brandon Tran, Andrew Ilyas, Logan Engstrom, 和 Aleksander Madry。使用单一鲁棒分类器进行图像合成。arXiv预印本 arXiv:1906.094532019年。 [44] Jascha Sohl-Dickstein, Eric A Weiss, Niru Maheswaranathan, 和 Surya Ganguli。使用非平衡热力学进行深度无监督学习。arXiv预印本 arXiv:1503.035852015年3月。 [45] Jiaming Song, Chenlin Meng, 和 Stefano Ermon。去噪扩散隐式模型。在学习表征国际会议ICLR上发表2021年4月。 [46] Yang Song, Liyue Shen, Lei Xing, 和 Stefano Ermon。通过基于得分的生成模型解决医学成像中的逆问题。arXiv预印本 arXiv:2111.080052021年。 [47] Yang Song, Jascha Sohl-Dickstein, Diederik P Kingma, Abhishek Kumar, Stefano Ermon, 和 Ben Poole。通过随机微分方程进行基于得分的生成建模。在学习表征国际会议ICLR上发表2021年。 [48] Maitreya Suin, Kuldeep Purohit, 和 AN Rajagopalan。空间注意补丁层次网络用于自适应运动去模糊。在IEEE/CVF计算机视觉与模式识别会议CVPR上发表2020年。 [49] Yu Sun, Brendt Wohlberg, 和 Ulugbek S Kamilov。一个用于正则化图像重建的在线Plug-and-Play算法。IEEE计算成像汇刊5(3):395-4082019年。 [50] Dmitry Ulyanov, Andrea Vedaldi, 和 Victor Lempitsky。深度图像先验。在IEEE计算机视觉与模式识别会议CVPR上发表2018年。 [51] Singanallur V Venkatakrishnan, Charles A Bouman, 和 Brendt Wohlberg。用于基于模型的重建的Plug-and-Play先验。在2013年IEEE全球信号和信息处理会议上发表2013年。 [52] Zhou Wang, Alan C Bovik, Hamid R Sheikh, 和 Eero P Simoncelli。图像质量评估从误差可见性到结构相似性。IEEE图像处理汇刊13(4):600-6122004年。 [53] Allan G Weber。USC-SIPI图像数据库版本5。USC-SIPI报告315(1)1997年。 [54] Jay Whang, Mauricio Delbracio, Hossein Talebi, Chitwan Saharia, Alexandros G Dimakis, 和 Peyman Milanfar。通过随机精炼进行去模糊。arXiv预印本 arXiv:2112.024752021年。 [55] Raymond A Yeh, Chen Chen, Teck Yian Lim, Alexander G Schwing, Mark Hasegawa-Johnson, 和 Minh N Do。使用深度生成模型进行语义图像修复。在IEEE计算机视觉与模式识别会议CVPR上发表2017年。 [56] Fisher Yu, Ari Seff, Yinda Zhang, Shuran Song, Thomas Funkhouser, 和 Jianxiong Xiao。LSUN使用深度学习和人为循环构建大规模图像数据集。arXiv预印本 arXiv:1506.033652015年。 [57] Kai Zhang, Yawei Li, Wangmeng Zuo, Lei Zhang, Luc Van Gool, 和 Radu Timofte。使用深度去噪先验的Plug-and-Play图像恢复。IEEE模式分析与机器智能汇刊2021年。 [58] Richard Zhang, Phillip Isola, 和 Alexei A Efros。彩色图像上色。在欧洲计算机视觉会议ECCV上发表2016年。 A DDRM ELBO目标的细节 DDRM是条件于\(y\)的马尔可夫链这将导致以下ELBO目标 \[ \mathbb{E}_{x_0 \sim q(x_0), y \sim q(y|x_0)}[\log p_\theta(x_0|y)] \] \[ \geq - \mathbb{E} \left[ \sum_{t1}^{T-1} \text{KL}(q^{(t)}(x_t|x_{t1}, x_0, y) \| p^{(t)}_\theta(x_t|x_{t1}, y)) \right] \mathbb{E} \left[ \log p^{(0)}_\theta(x_0|x_1, y) \right] - \mathbb{E}[\text{KL}(q^{(T)}(x_T|x_0, y) \| p^{(T)}_\theta(x_T|y))] \] 其中 \( q(x_0) \) 是数据分布\( q(y|x_0) \) 遵循主文中的方程 (1)右侧的期望通过采样 \( x_0 \sim q(x_0), y \sim q(y|x_0), x_T \sim q^{(T)}(x_T|x_0, y), \) 和 \( x_t \sim q^{(t)}(x_t|x_{t1}, x_0, y) \) 对于 \( t \in [1, T-1] \) 得到。 B “方差保持”和 “方差保持”和“动态模糊”构造的等效性在附录B中我们展示了去噪扩散模型的目标可以通过特定的高斯噪声扩散来实现其中我们假设模型是条件于初始观测值的无条件生成模型。具体来说我们在去噪扩散模型的训练过程中引入了两个约束i“方差保持”即在每个时间步保持特定方差水平ii“动态模糊”即调整每个时间步的噪声水平使其在不同退化模型下生成高质量图像。 B.1 方差保持为了展示去噪扩散恢复模型DDRM的高效性和鲁棒性我们通过理论和实验证明在特定条件下我们的方法能够在不增加计算复杂度的情况下保持生成模型的方差水平。我们定义了一个高斯噪声模型使其满足以下方程 \[ q(x_t|x_0) N(x_0, \sigma_t^2 I) \] 其中 \( x_t \) 是通过将高斯噪声添加到初始观测值 \( x_0 \) 得到的并且 \( \sigma_t \) 表示在第 \( t \) 个时间步的噪声水平。我们在附录B中详细推导了这一过程并证明了在这种构造下DDRM的生成模型能够保持与无条件生成模型相同的方差水平。 B.2 动态模糊我们进一步引入了“动态模糊”机制以在每个时间步动态调整噪声水平。具体来说我们定义了一个条件高斯分布使其能够根据不同的退化模型调整噪声水平 \[ q(x_t|x_{t1}, x_0, y) N(x_0 \sqrt{1 - \eta^2 \sigma_t^2} \frac{x_{t1} - x_0}{\sigma_{t1}}, \eta^2 \sigma_t^2) \] 其中 \( \eta \) 是控制噪声水平的超参数\( x_{t1} \) 是在第 \( t1 \) 个时间步生成的样本。通过这种动态模糊机制DDRM能够在不同的退化模型下生成高质量的图像并保持生成模型的稳定性和鲁棒性。 C DDRM的理论分析在附录C中我们对DDRM的理论基础进行了详细分析证明了在合理的假设下DDRM的目标与无条件去噪扩散生成模型的目标是等价的。具体来说我们证明了在特定的高斯噪声模型下DDRM能够通过少量的神经函数评估NFEs实现高质量的图像恢复。 D 高效内存的SVD 为了减少存储矩阵 \( V \) 的空间复杂度我们引入了一种高效的奇异值分解SVD方法。具体来说我们利用了退化算子 \( H \) 的特殊属性使得存储矩阵 \( V \) 的空间复杂度从 \( \Theta(n^2) \) 降低到 \( \Theta(n) \)。在附录D中我们详细描述了这种高效的SVD方法并展示了其在不同图像恢复任务中的应用。 E 实验设置的详细说明在附录E中我们提供了所有实验的详细设置包括数据集的选择、模型的训练和评估方法。我们在CelebA-HQ、LSUN卧室和LSUN猫等多个数据集上训练了扩散模型并在FFHQ图像和其他自然图像上进行了测试。此外我们在ImageNet 256×256和512×512的训练集上训练了模型并在相应的验证集上进行了评估。我们在所有实验中使用了相同的超参数并报告了不同时间步的实验结果。 F 实验结果的详细分析在附录F中我们详细分析了不同方法在各种逆问题中的性能表现。我们比较了DDRM、RED、DGP和SNIPS在无噪声和有噪声版本的超分辨率和去模糊问题中的表现并展示了DDRM在所有指标上的优越性。我们进一步展示了在不同噪声水平下DDRM的性能优势更加明显并能够在较少的NFEs下实现高质量的图像恢复。 G 扩展实验在附录G中我们展示了DDRM在更多图像恢复任务中的应用包括双三次插值超分辨率、各向异性高斯核去模糊和其他复杂的图像退化模型。我们展示了DDRM在这些任务中的高效性和鲁棒性并提供了详细的定量和定性结果。 H 其他方法的比较在附录H中我们对ILVR等其他基于扩散模型的方法进行了比较并证明了在相同的基础生成模型下ILVR是DDRM的特例。我们进一步展示了通过优化时间步和方差调度ILVR可以加速到与DDRM相同的时间步并在不显著增加计算复杂度的情况下实现高质量的图像恢复。 I 其他实验结果在附录I中我们提供了更多的实验结果包括USC-SIPI数据集上的恢复结果、在FFHQ图像和其他自然图像上的恢复结果以及在不同噪声水平下的定量和定性结果。我们展示了DDRM在各种逆问题和数据集上的广泛适用性和高效性并提供了详细的实验设置和结果分析。我们展示了DDRM在各种逆问题和数据集上的广泛适用性和高效性并提供了详细的实验设置和结果分析。 I. 其他实验结果继续我们进一步展示了DDRM在其他复杂的图像恢复任务中的性能。在不同的退化模型和数据集上我们展示了DDRM的适应性和鲁棒性。我们还进行了多种逆问题设置的扩展实验包括双三次插值超分辨率和各向异性高斯核去模糊并提供了详细的定量和定性结果。 I.1 实验设置我们在USC-SIPI数据集上进行了一系列实验以验证DDRM在处理不同类型图像时的表现。我们选择了一些经典的图像恢复任务包括去噪、修复和上色并展示了在这些任务中的实验结果。 I.2 定量实验结果表3在USC-SIPI数据集上的去噪和修复任务的定量结果。 | 方法 | 去噪 | 修复 | | ---- | ---- | ---- | | | PSNR↑ | SSIM↑ | KID↓ | NFEs↓ | PSNR↑ | SSIM↑ | KID↓ | NFEs↓ | | DDRM | 30.12 | 0.85 | 0.12 | 20 | 27.45 | 0.78 | 0.15 | 20 | 从表3中可以看出DDRM在USC-SIPI数据集上的去噪和修复任务中表现优异能够在较少的NFEs下实现高质量的图像恢复。 I.3 定性实验结果图7展示了DDRM在USC-SIPI数据集上不同图像恢复任务中的定性结果。我们展示了原始图像、退化图像以及DDRM恢复的图像。可以看出DDRM能够在不同的任务中生成高质量的恢复图像保留了原始图像的大量细节和结构信息。结论我们引入了去噪扩散恢复模型DDRM一个基于无条件/类条件扩散生成模型的高效无监督采样线性逆问题求解器。通过变分推理的启发DDRM只需少量的神经函数评估NFEs便可在多个图像恢复任务中实现高质量的结果。我们的实验结果展示了DDRM在各种退化模型和数据集上的广泛适用性和鲁棒性。未来的工作可以进一步优化时间步和方差调度探索DDRM在非线性逆问题和未知退化算子场景中的应用及其在自监督训练和监督技术中的潜力。

查看全文

http://www.dnsts.com.cn/news/236481.html