当前位置：首页 > news >正文

百度权重查询爱站网网站建设宣传ppt模板下载

news 2026/1/29 1:09:32

百度权重查询爱站网,网站建设宣传ppt模板下载,汕头网站建设和运营,wordpress添加ssl目录 1. 前沿2. N2N3. N2V——盲点网络#xff08;BSNs#xff0c;Blind Spot Networks#xff09;开创者3.1. N2V实际是如何训练的#xff1f; 4. HQ-SSL——认为N2V效率不够高4.1. HQ-SSL的理论架构4.1.1. 对卷积的改进4.1.2. 对下采样的改进4.1.3. 比N2V好在哪#xff… 目录 1. 前沿2. N2N3. N2V——盲点网络BSNsBlind Spot Networks开创者3.1. N2V实际是如何训练的 4. HQ-SSL——认为N2V效率不够高4.1. HQ-SSL的理论架构4.1.1. 对卷积的改进4.1.2. 对下采样的改进4.1.3. 比N2V好在哪 4.2. HQ-SSL的实际实现补HQ-SSL的训练和测试须知知乎同名账号同步发表 1. 前沿 N2N即Noise2Noise: Learning Image Restoration without Clean Data2018 ICML的文章。 N2V即Noise2Void - Learning Denoising from Single Noisy Images2019 CVPR的文章。这两个工作都是无监督去噪的重要开山之作本文先对其进行简单总结然后引出一个变体HQ-SSL2019 NIPS。本系列会对近一两年的顶会顶刊无监督图像恢复主要是去噪工作、时间有点久远但是非常经典的无监督图像恢复工作进行学习总结。欢迎大家评论交流、关注、批评。 2. N2N 相信大家对这句话不算陌生同一场景下的两次含噪声的观测noisy observation。上图就是该方法的训练策略 x i x_i xi和 y i y_i yi分别表示同一个场景下的两次相互独立的含噪声的观测。 f θ ( ⋅ ) f_\theta(·) fθ(⋅)表示网络。为什么这样训练就能让 f θ ( ⋅ ) f_\theta(·) fθ(⋅)学会去噪呢这是因为有如下假设第一噪声零均值假设第二 x i x_i xi和 y i y_i yi是同一场景下的两次观测第三不同次的含噪声的观测之间噪声相互独立。为了简便起见我们将一张noisy image表示为如下形式 i m a g e s i g n a l n o i s e imagesignalnoise imagesignalnoise 即含噪声的图片是由信号和噪声想加而成这样不严谨因为噪声未必是加性噪声但是此处为了方便我们可以这样阐述。我们可以将 x i x_i xi和 y i y_i yi分别用上述形式表示如下 x i s i x n i , y i s i y n i x_is_ixn_i,y_is_iyn_i xisixni,yisiyni 我们将 x i x_i xi和 y i y_i yi两张图片都表示为信号噪声的形式再用前文的损失函数即网络尝试学会将 x i x_i xi映射为 y i y_i yi。由于噪声相互独立这一假设 x n i xn_i xni和 y n i yn_i yni毫无关联但由于这是同一场景下的两次观测所以两者中信号的部分都用 s i s_i si表示。网络尝试学会将 x i x_i xi映射为 y i y_i yi就是将 s i x n i s_ixn_i sixni映射为 s i y n i s_iyn_i siyni f θ ( x i ) f θ ( s i x n i ) → s i y n i f_\theta(x_i)f_\theta(s_ixn_i)→s_iyn_i fθ(xi)fθ(sixni)→siyni 由于 x n i xn_i xni和 y n i yn_i yni毫无关联将 x n i xn_i xni映射为 y n i yn_i yni是不可能的。此时用数学语言表述网络的输出可以表示为如下形式 f θ ( x i ) f θ ( s i x n i ) → s i 随机噪声 f_\theta(x_i)f_\theta(s_ixn_i)→s_i随机噪声 fθ(xi)fθ(sixni)→si随机噪声网络并没有办法建立xn_i和yn_i的联系这种随机 → 随机随机→随机随机→随机的映射最终会演变为随机 → E ( 随机 ) 随机→E(随机) 随机→E(随机)的映射。由于噪声零均值这一假设上式可以进一步写为 f θ ( x i ) f θ ( s i x n i ) → E ( s i 随机噪声 ) s i E ( 随机噪声 ) s i f_\theta(x_i)f_\theta(s_ixn_i)→E(s_i随机噪声)s_iE(随机噪声)s_i fθ(xi)fθ(sixni)→E(si随机噪声)siE(随机噪声)si 所以只要满足噪声零均值假设、两次观测x和y在同一场景下、两次观测的噪声相互独立那么就可以通过让网络学习从x映射到y的方式学会去噪。作者亦通过实验证明了有效性。 3. N2V——盲点网络BSNsBlind Spot Networks开创者 N2V可以视为对N2N的批判理由如下 N2N的训练数据是相同场景的两次不同noisy observation组成的pair实际使用的时候两次不同的观测很难是相同场景的。比如医学图像两次拍摄的时间不一样也许器官在位置上发生了细微的变化这就不能叫做严格的相同场景。以上的问题核心在于训练需要两张noisy image。那么能否只用一张noisy image就完成训练呢当然可以其实N2N之后涌现了Neighbor2Neighbor、N2V这样优秀的工作这些都可以不必依赖于noisy image pair而是依赖于single noisy image就能够完成训练。Neighbor2Neighbor是对一张noisy image进行采样得到pair然后采用N2N的方式进行训练并通过loss消除location gapN2V则完全采用了和N2N不一样的思路接下来我们主要介绍一下N2V因为它是BSNs的开创者to my best knowledge所以此说法如有不对请评论区指出。这是N2V论文中的图在有监督学习中给网络输入Input获得Prediction通过让Prediction接近GT就能够让网络学会去噪。如果是无监督那么这个Label是不存在的。如上图左侧a由于Prediction最终要接近Input所以网络会学习恒等映射。但是我们的目标就是中single noisy image完成训练既没有GT也没有相同场景下的另一个噪声观测实验要怎么做呢我们可以选择如上图b的做法对比图a的感受野我们将b中的感受野的中心部分挖掉一个像素然后将剩余的部分作为Input我们记为 I n p u t b l i n d Input_{blind} Inputblind。由于网络看不到Input的中心像素点我们称这个像素点为Blind Spot也就是盲点。所有存在盲点的方法我们都可以归类为Blind Spot Networks也就是BSNs。我们将没有挖掉中心像素的Input记为 I n p u t t o t a l Input_{total} Inputtotal网络的输出Prediction和 I n p u t t o t a l Input_{total} Inputtotal做loss就可以促进网络学会去噪。所以N2V就讲完了bushi… 简单说一下我们只需要对Input做一件事——挖掉它的中心像素然后扔给网络。网络的输出和Input之间的差距作为loss就能让网络学会去噪。但是这一切是有前提的N2V有如下假设我们依旧将像素视为信号噪声不同像素位置信号是相互有关联的不同像素位置噪声是相互没有关联的在一些文章中称为噪声独立假设噪声的均值为0。网络可以看到除了中心像素以外的全部像素包括它们的信号和噪声。网络实际学习的事情就是如何根据周围的像素点推测出中心像素点。由于不同像素位置的信号互有关联比如你鼻孔边缘像素的附近可能是鼻屎鼻子像素的附近可能有黑头所以通过周围像素的信号可能可以推测出中心像素的信号但是依据噪声独立假设无法通过周围像素的噪声推测出中心像素的噪声。所以将网络输出的中心像素 x p r e x_{pre} xpre和Input中被屏蔽的中心像素 x i n x_{in} xin做loss x p r e − x i n s p r e n p r e − ( s i n n i n ) s p r e − s i n ( n p r e − n i n ) x_{pre}-x_{in}s_{pre}n_{pre}-(s_{in}n_{in})s_{pre}-s_{in}(n_{pre}-n_{in}) xpre−xinsprenpre−(sinnin)spre−sin(npre−nin) s和n分别表示信号和噪声。为了表述方便上式直接用了减法。根据在N2N部分的讲解相信你已经猜到了网络的输出会是如下形式 x p r e s p r e n p r e → E ( s i n 随机噪声 ) s i n E ( 随机噪声 ) x_{pre}s_{pre}n_{pre}→E(s_{in}随机噪声)s_{in}E(随机噪声) xpresprenpre→E(sin随机噪声)sinE(随机噪声) 根据噪声零均值假设我们有 x p r e → s i n E ( 随机噪声 ) s i n x_{pre}→s_{in}E(随机噪声)s_{in} xpre→sinE(随机噪声)sin 3.1. N2V实际是如何训练的上文所述我们将Input中心像素点挖掉并让网络的输出和完整的Input做loss。可是这样会导致每次只有一个像素影响训练过程。此部分我们简单讲下N2V原文是如何训练模型的。 N2V实际的训练方式随机选取 64 × 64 64 \times 64 64×64大小的patch记为x。在x中随机选取N个点对每个点p都随机用一个点的像素替换它具体地在以p为中心、以网络感受野为大小的区域如上图b用该区域内的一个随机像素蓝色替换中心像素红色。这样x中就被创造了N个盲点将这样的x记为 x b l i n d x_{blind} xblind。将 x b l i n d x_{blind} xblind输入到网络获得输出记为y。我们将x中N个点和y中对应位置的N个点做loss。这样输入一个 64 × 64 64 \times 64 64×64的patch做训练一次就能够计算N个点对应的梯度。注意采样N个点的过程中采用了stratified sampling以避免clustering这个stratified sampling是分层采样本文不进行讲解 4. HQ-SSL——认为N2V效率不够高本文是2019 NeurIPS的论文High-Quality Self-Supervised Deep Image Denoising作者认为N2V存在的问题是N2V将输入的一部分pixel进行屏蔽也只有这一部分pixel才能对loss进行贡献作者认为这样会相对降低训练效率。本文本质上还是盲点网络派系BSNs的思想。在4.1中我们先阐述HQ-SSL的架构以及作者认为他们比N2V更优的原因并在4.2中阐述此架构的实际实现。在4.3中简单回顾本工作中盲点思想的体现。最后在4.4讲述一些公式阐明本工作如何利用所设计的架构进行训练和去噪。 4.1. HQ-SSL的理论架构主要是对卷积和下采样的改进下面详细阐述。 4.1.1. 对卷积的改进传统的卷积如上图所示这里假设是 3 × 3 3 \times 3 3×3大小的卷积。注意输入和输出的对应关系输出像素是输入对应感受野的中心位置。这就意味着网络推测一个像素实际上用的是所有相邻位置自身位置的像素。在N2V中我们已经见识了盲点的思想即像素的推测靠的是所有相邻位置的像素但不包含自身位置的像素。如果将这种思想转换为卷积操作姑且可以认为等价于下图的形式我用蓝色表示这个像素点是不可见的也就是说卷积操作是无法看见中心像素点的。但是要求这样的计算能够推测中心位置的像素。这就是HQ-SSL的中心思想不过这个工作并没有按照上图那样操作它将卷积操作改造成了如下的方式 HQ-SSL将卷积操作分为了四个方向上图对应的是其中一种方向——输出像素取决于对应输入像素的上方相邻像素。如果算上所有四个方向那么输出像素就取决于对应输入像素的上方、左方、下方、右方的若干相邻像素。 ⚠️注意作者的思路是N2V工作中的盲点本质上是让模型根据周围的像素点推测中心像素点那么我们可以改造卷积操作让每一次卷积运算都只能看见中心位置像素的若干相邻像素。 ⭐️在实现上作者采用的是平移补 0 裁剪平移补0裁剪平移补0裁剪的操作用下图简单阐述绿色表示补零操作红色叉叉表示裁剪。可以看到如上图操作之后1和7的对应位置关系等价于上文所述HQ-SSL对卷积操作的改进方式注意上述内容是根据作者提供的源代码获知如果读者需要使用HQ-SSL可以直接使用官方提供的代码。2023 CVPR有一篇工作引用了HQ-SSL其官方代码和HQ-SSL的代码在卷积操作上是一致的。之所以写这段话是因为HQ-SSL个人认为文章的关键段落较为晦涩看不懂的读者朋友可以考虑直接看官方的代码写的还是很易懂的。 ⚠️注意上述内容的补零和裁剪可以视为平移上图仅平移了1个像素是因为卷积核大小是 3 × 3 3 \times 3 3×3。如果是更大的卷积核那么可以考虑不同的平移像素数量。 4.1.2. 对下采样的改进如果采用传统的 2 × 2 2 \times 2 2×2下采样那么在上采样后 2 × 2 2 \times 2 2×2区域内的四个像素分别将和对应输入的同位置区域的四个像素相关联。作者针对下采样才用了和对卷积一样的改进方案—— 平移裁剪平移裁剪平移裁剪绿色方框表示补0红色叉叉表示裁剪。我们将1和4放到下图并用不同的颜色这样可以直观理解通过上图你可以认为下采样也有一个感受野每个像素的感受野对应于该像素的位置以及该像素位置的上方位置。和卷积一样下采样也会对应四个方向。下采样的方向和卷积的方向是一致的。注意上采样没有被改造。 4.1.3. 比N2V好在哪这里我就直接摘录原文的内容了 N2V是将输入的一部分pixel进行屏蔽只有这部分pixel才能对loss做贡献或者只有这部分pixel才是loss的组成部分。作者认为这样会降低训练效率所以采用HQ-SSL的设计思想通过对卷积和下采样进行改造可以等价出盲点网络BSN的效果。而且由于仅仅改变了卷积和下采样所有pixel都是loss的组成部分或者说所有pixel都能对loss做贡献、对训练做贡献。 4.2. HQ-SSL的实际实现先看上图的上半部分拥有4个branch。C表示4.1中所讲述的改造后的卷积1表示 1 × 1 1 \times 1 1×1的卷积。绿色的部分表示四个方向的感受野对应四个方向的卷积和下采样。再看上图的下半部分表示作者实际的实现方式虽然只有一个branch但是通过旋转操作图中的R等价出了四个方向的卷积和下采样。由于只有一个branch显然网络的参数量被大幅减少。补HQ-SSL的训练和测试须知 ⭐️如果没有此部分内容我们会根据对N2V的印象认为HQ-SSL的训练方式是将上图右端的预测结果和左边的输入做loss并以此训练。在测试阶段则是直接将noisy image输入网络就能够获得对应的去噪结果。实际上不是在论文的第三节3 Self-supervised Bayesian denoising with blind-spot networks作者对训练和测试过程进行了阐述。摘录网上博客对此部分的分析我没有深究这地方网络输出噪声的一些分布参数利用预测的参数可以进行去噪。具体内容我不太感兴趣所以不深究了。我阅读这篇论文主要目的是学习它的盲点思想。后续也有2023 CVPR的文章Spatially Adaptive Self-Supervised Learning for Real-World Image Denoising采用了HQ-SSL的盲点网络的设计下一篇博客我将讲述它届时我会将链接放在这里。

查看全文

http://www.dnsts.com.cn/news/84779.html