浙江建设招生网站,计算机应用技术好就业吗,创建网站步骤,句容建设质检站网站0.摘要 尽管取得了显著的进展#xff0c;弱监督分割方法仍然不如完全监督方法。我们观察到性能差距主要来自于它们在从图像级别监督中学习生成高质量的密集目标定位图的能力有限。为了缓解这样的差距#xff0c;我们重新审视了扩张卷积[1]并揭示了它如何以一种新颖的方式被用…0.摘要 尽管取得了显著的进展弱监督分割方法仍然不如完全监督方法。我们观察到性能差距主要来自于它们在从图像级别监督中学习生成高质量的密集目标定位图的能力有限。为了缓解这样的差距我们重新审视了扩张卷积[1]并揭示了它如何以一种新颖的方式被用于有效地克服弱监督分割方法的这一关键限制。具体而言我们发现不同的扩张率可以有效地扩大卷积核的感受野并且更重要的是将周围的有辨别力的信息传递给非辨别性的目标区域促进这些区域在目标定位图中的出现。然后我们设计了一个具有不同扩张率的卷积块的通用分类网络。它可以产生密集且可靠的目标定位图并有效地有利于弱监督和半监督语义分割。尽管表面上看起来很简单我们提出的方法在性能上超过了现有技术水平。特别是在弱监督只有图像级别标签可用和半监督有1,464个分割掩码可用的设置下在Pascal VOC 2012测试集上实现了60.8%和67.6%的mIoU分数创下了新的技术水平。
1.引言 由于不需要昂贵的人力成本弱监督的图像识别方法[11,15,16,19,23,38-42,44]已经得到广泛研究。其中最有吸引力的方法之一是仅使用图像级别注释学习对图像进行分割。对于这种方法来说目前仍然存在一个被认为是最关键的挑战即如何准确地和密集地定位目标区域以获取高质量的目标线索从而启动和改进分割模型的训练[1,20,45]。 最近一些自顶向下的方法[43,46]提出利用分类网络来生成类别特定的注意力线索用于目标定位。然而直接使用图像分类模型生成的注意力只能识别目标对象的一个小的有辨别力的区域这对于训练一个良好的分割模型来说不够密集和广泛。例如图1(b)的第二行展示了由最先进的类别激活映射CAM[46]生成的一些类别特定区域定位的样本。可以观察到在存在大型对象的常见情况下CAM很难生成密集的目标区域这与语义分割任务的要求不符。CAM发现的这些区域通常散布在目标对象周围例如孩子的头部和手部等有辨别力的部分。无法从图像级别监督中学习生成密集目标定位是发展性能良好的弱监督分割模型的关键障碍。基于这样的观察我们提出将那些稀疏突出的区域中的有辨别力的知识转移到相邻的目标区域从而形成密集的目标定位这可以有效地促进分割模型的学习。 为了实现这一目标我们重新审视了流行的扩张卷积并发现它确实提供了一个有前景的解决方案只要能够正确地利用它。扩张卷积最初由Chen等人引入用于语义分割[1,2]。其一个关键优势是能够有效地扩大感受野的大小以融入上下文信息而不引入额外的参数或计算成本。我们发现这个特性非常适合在图像区域之间传播有辨别力的信息并突出非辨别性的目标区域以生成密集的目标定位。受此启发我们引入了多个扩张卷积块来增强标准的分类模型如图1(a)所示。 具体而言我们提出的方法通过改变卷积核的扩张率在多个尺度上扩大感受野。通常分类网络能够识别出一个或多个具有高响应的小的有辨别力的部分以正确识别图像。通过扩大感受野具有低响应的目标区域可以通过感知周围高响应的上下文来提高辨别力。这样目标对象高响应部分的辨别信息可以在多个尺度上传播到相邻的目标区域使它们更容易被分类模型识别。我们利用CAM [46]为每个卷积块生成一个目标定位图。如图1(a)所示在不扩大扩张率即d1的情况下卷积块只能定位两个小的有辨别力的区域。通过逐渐增加扩张率从3到9发现了更多与目标相关的区域。 然而一些真实的负面区域可能会被错误地突出显示使用较大的扩张率例如对应于d9的定位图。因此我们提出了一种简单但有效的抗噪声融合策略来解决这个问题。这个策略可以有效地抑制被扩大感受野激活的与目标无关的区域并将不同扩张块产生的定位图融合为一个整体清晰地突出显示目标区域。从图1(b)中所示的例子可以看出我们的方法对尺度变化非常鲁棒并能够密集地定位目标对象。
我们使用我们提出的方法生成的定位图来为训练分割模型生成分割掩码。我们的方法是通用的并可以以弱监督和半监督的方式用于学习语义分割网络。尽管看起来简单但我们的方法确实提供了密集的目标定位可以轻松提升弱监督和半监督语义分割的效果这在广泛的实验证明中得到了证实。总结起来这项工作的主要贡献有三个方面 •我们重新审视了扩张卷积并揭示了它自然适应于密集定位目标区域的要求以构建一个良好的弱监督分割模型这对于弱监督/半监督图像语义分割是新的。 •我们提出了一种简单而有效的方法利用扩张卷积来通过传递辨别性的分割信息密集地定位目标。 •我们提出的方法可以以弱监督和半监督的方式学习语义分割网络。具体而言在弱监督和半监督设置下它在Pascal VOC分割基准测试集上分别达到了60.8%和67.6%的mIoU分数这是最新的技术水平。 图1.(a)我们提出的方法为标准分类网络配备具有不同扩张率的多个扩张卷积块以实现密集的目标定位。(b)比较最先进的CAM [46]第2行和我们的方法最后一行在生成的目标定位图质量上的差异。我们的方法即使在存在很大的尺度变化的情况下也能更准确地定位目标对象。
2.相关工作
使用粗糙注释进行分割为了训练语义分割模型收集大量的像素级注释是一项费时费力的工作。为了减轻像素级注释的负担Dai等人[3]和Papandreou等人[21]提出使用带有注释边界框的方法来学习语义分割。Lin等人[17]使用语义涂鸦作为语义分割的监督。最近监督注释进一步放宽为实例点[28]。
使用图像级别注释进行分割图像级别标签是最简单的分割学习监督容易获取。一些工作[22–24]提出利用多实例学习和图像级别标签进行语义分割。Papandreou等人[21]提出基于期望最大化算法动态预测前景对象和背景进行监督。最近在这一具有挑战性的任务上取得了很大的进展[8,9,13,14,26,29,31,34,35]。Wei等人[35]和Qi等人[26]利用提议生成像素级注释以进行监督。然而使用MCG[25]提议或采用额外的网络[36]进行基于提议的分类通常会导致较长的时间消耗并且也会固有地使用更强的监督MCG是从带有像素级注释的PASCAL训练图像中训练得到的。Wei等人[34]提出了一个从简单到复杂STC的框架逐步提高分割网络的能力。然而STC的成功主要依赖于大量简单图像的训练。Kolesnikov等人[14]提出了一种SEC方法将三种损失函数种子、扩张和边界约束集成到统一的框架中来训练分割网络。但是SEC只能获得与对象相关的小而稀疏的种子用于监督这不能为学习可靠的分割模型提供足够的信息。最近Wei等人[33]提出了一种对抗擦除AE方法来挖掘密集的目标区域进行监督。虽然它在PASCAL VOC基准测试中达到了最先进的性能但AE方法需要重复的训练过程来学习多个分类模型然后将这些模型应用于定位与对象相关的区域。相比之下在这项工作中我们只需要训练一个分类模型来定位密集且完整的目标区域。 图2.我们方法的动机:通过改变卷积核的扩张率信息可以从最初具有区分性的区域传递到其他区域。对应的定位图在第二行显示。最佳观看效果为彩色显示。
3.所提出的方法
3.1.重新审视扩张卷积 一些自顶向下的方法[43,46]可以识别对分类网络决策有贡献的具有区分能力的目标区域但它们通常会漏掉非区分目标区域。我们提出通过使信息能够从具有区分性的区域传递到相邻的非区分性区域来增强分类模型以克服这种局限性。我们发现扩张卷积[1]可以通过增大卷积核的感受野大小有效地融入周围上下文提供了一个有希望的解决方案。图2说明了扩张如何实现信息传递。原始图像中绿色循环中的头部区域对于分类网络将其识别为鸟图像最具区分能力。我们采用一个3x3的卷积核来学习红色循环所示位置的特征表示。通过将3x3卷积核的扩张率从1增大到3靠近头部的位置将被感知并提高其区分性。通过进一步增加扩张率到d6,9一些更远的位置将感知到头部并同样有助于分类模型发现这些区域。为了证明扩张卷积确实可以提高低响应目标区域的区分能力我们使用CAM[46]在不同的扩张率下生成了定位图。我们可以观察到在d1的定位图上那些低响应的目标区域可以通过各种扩张率有效地突出显示。根据不同的扩张率产生的定位图是互补的因此整合来自多个扩张块的结果也是必要的。 图3.多个扩张卷积块训练网络的说明。
3.2.用于定位的多扩张卷积 受以上发现的启发我们提出了一个增强的分类网络使用多个扩张卷积块MDC来产生密集的目标定位如图3所示。该网络基于在ImageNet上预训练的VGG16 [32]模型构建。我们移除了那些全连接层并移除一个池化层以增加特征图的分辨率。然后在conv5后附加具有多个扩张率即drii1···k的卷积块以定位由不同感受野感知到的与对象相关的区域。在全局平均池化GAP之后生成的特征表示经过一个全连接层进行图像级别的分类预测。我们通过最小化sigmoid交叉熵损失来优化分类网络然后使用分类激活映射CAM[46]方法为每个块生成类别特定的定位图。 我们实现了两种卷积操作。1)我们应用标准的卷积核即d1。在这种情况下我们可以获得准确的定位图其中目标对象的一些具有区分性的部分被突出显示但是很多与对象相关的区域被漏掉了。2)为了将稀疏突出显示区域的区分性知识转移到其他对象区域我们改变扩张率以扩大卷积核的感受野。通过这种方式相邻突出显示区域的区分性特征可以传递到尚未被发现的与对象相关的区域。我们观察到具有较大扩张率的卷积块会引入一些无关的区域即通过利用相邻具有区分性的对象部分突出显示的一些真负区域。因此我们在这项工作中提出使用小的扩张率即d3,6,9。 然而即使我们采用小的扩张率仍然可能会识别出一些无关的区域。为了解决这个问题我们提出了一个简单的抗噪声融合策略用于抑制与对象无关的区域并将生成的定位图融合成一个整体的定位图其中对象区域被清晰地突出显示。我们注意到真正的正面与对象相关的区域通常可以通过两个或更多的定位图区分而真负区域在不同的扩张情况下表现出多样性。为了减少错误区域我们对由不同扩张卷积块d3,6,9生成的定位图进行平均操作。然后将平均图添加到标准卷积块d1的定位图中以生成最终的定位图。通过这种方式标准卷积块挖掘的准确区域不会被漏掉。形式上我们使用H0和Hii1···ndnd为扩张卷积块的数量来表示标准和扩张卷积块生成的定位图。用于生成对象区域的最终定位图H由H H0 n1d n i1 d Hi产生。 基于H像素值大于预定义阈值δ的像素被视为支持对象相关区域的前景。此外还需要背景定位线索来训练分割网络。受到[14,33,34]的启发我们利用显著性检测方法[37]生成训练图像的显著性图并将显著性值较低的像素视为背景。我们遵循[33]中详细介绍的相同策略来合并突出显示的对象区域和背景线索。最后我们能够获得每个训练图像的预测分割掩码用于学习分割。 图4.我们提出的弱监督或半监督方式下训练语义分割的细节。具体而言(a)是从密集定位图推断出的分割掩码(b)是在线预测的分割掩码(c)是人工标注的分割掩码。
3.3.弱监督和半监督语义分割学习 我们使用所提出的方法生成的密集定位图来训练弱监督和半监督的分割模型。
3.3.1.弱监督学习 对于弱监督应用我们采用类似于[21,33]中提出的框架利用推断的分割掩码中被忽略的像素并对错误标注的像素具有鲁棒性如图4上部所示。具体而言我们以在线方式提取与真实图像级标签对应的置信度图用于推断分割掩码这与从密集定位图中得到的分割掩码一起作为监督信息。 我们更正式地解释这个过程。设Iw是弱监督训练集Iw中的一张图像。对于任意的Iw ∈ IwMw是由密集定位图生成的相应的伪分割掩码C是标签集其中包括背景类别。我们的目标是训练一个具有可学习参数θ的分割模型例如FCN表示为f(Iw;θ)。FCN模型建模了类别特定置信度图fu,c(Iw;θ)在任意位置u处的任意标签c ∈ C的条件概率。用Mˆw表示Iw的在线预测分割掩码它与Mw一起用于监督。优化弱监督FCN的损失函数定义如下 3.3.2.半监督学习 除了大量带有图像级标注的图像外我们还对利用少量图像的像素级标注进一步提高分割性能的半监督学习设置感兴趣。如图4底部所示通过共享参数可以将强标注和弱标注的图像结合起来学习分割网络。设Is为强监督训练集Is中的一张图像Ms是由人工标注的相应分割掩码。用于优化半监督FCN的损失函数可以定义为
4.实验
4.1.数据集和设置
数据集和评价指标我们在PASCAL VOC 2012分割基准数据集[5]上评估了我们提出的方法。该数据集中注释了一个背景类别和20个物体类别。按照常规做法[1,6,33]通过数据增强将训练图像数量增加到10,582张。验证集和测试集分别包括1,449张和1,456张图像。我们以在21个类别上平均像素mIoU作为性能评价指标。在所有实验中只使用图像级标签作为监督并对验证集进行详细分析。我们将我们的方法与其他最先进的方法在验证集和测试集上进行了比较。测试集上的结果是通过将预测结果提交给官方PASCAL VOC评估服务器获得的。
训练/测试设置我们采用了在ImageNet [4]上预训练的VGG16 [32]的卷积层来初始化分类网络除了新增加的卷积块。对于分割网络我们选择了[1]中的DeepLab-CRF-LargeFOV模型作为基础网络其参数也是由VGG16进行初始化的。我们采用每批30张图像的小批量大小。从图像中随机裁剪出大小为321×321像素的补丁用于训练分类和分割网络。我们训练模型15个epochs。初始学习率设置为0.001在第6个epoch后降低10倍。所有实验都在NVIDIA TITAN X PASCAL GPU上进行。我们使用基于公开可用的Caffe框架[10]实现的DeepLab [1]代码。为了基于密集定位图获取与对象相关的区域我们选择属于前30%最大值的唯一像素作为对象区域。利用[37]生成的显著图提供背景线索。根据[33]的设置我们将标准化显著值小于0.06的像素设置为背景。所有冲突和未分配的像素在训练中被忽略。
4.2.与当下方法的对比
4.2.1弱监督语义分割 对于弱监督语义分割我们主要比较使用粗糙的像素级注释包括涂鸦、边界框和斑点和图像级注释作为监督信息的方法。表1显示了在PASCAL VOC验证集和测试集上的比较结果。需要注意的是一些方法利用更多的图像进行训练例如MIL-*[24]700K、TransferNet [7]70K、STC [34]50K和Hong等人[8]970K。此外由于使用了MCG [25]提案一些方法如SN B [35]和AF-MCG [26]隐式地使用了像素级监督。 从表1可以看出从我们生成的密集定位图推断出的分割掩码对于学习分割网络非常可靠优于所有使用图像级标签作为弱监督的其他方法。我们注意到Hong等人[8]在这个具有挑战性的任务上取得了最先进的性能。然而改进主要受益于使用额外的视频数据进行训练。由于视频中的时间动态可以提供丰富的信息因此从视频中区分整个对象区域比从静态图像中更容易。值得注意的是我们只使用了1万张图像来训练模型在验证集上的性能比Hong等人[8]提高了2.3%。这充分证明了所提方法在生成高质量密集对象定位图方面的有效性。AE-PSL需要进行多个对抗性擦除步骤来挖掘与对象相关的区域这需要训练多个不同的分类模型来进行对象定位。所提出的方法只需要训练一个单一的分类模型来定位对象区域并且在mIoU得分上比AE-PSL表现更好。与AF-MCG [26]相比我们的方法不需要大量的提案因此在生成提案和训练上更高效。在没有任何像素级监督的情况下我们的弱监督结果进一步接近基于涂鸦和基于边界框的方法并且比基于斑点的方法表现更好提高了超过8.8%。我们在PASCAL VOC测试集上进行了额外的比较。我们的方法在这个竞争性的基准上达到了最新的最先进水平并且在mIoU得分上超过其他方法超过2.1%。
表1。PASCAL VOC 2012验证集和测试集上弱监督语义分割方法的比较。
表2。PASCAL VOC 2012验证集和测试集上半监督语义分割方法的比较。
4.2.2.半监督语义分割 对于半监督语义分割我们主要与WSSL [21]进行比较其弱监督注释是图像级标签。为了进一步验证密集定位图的质量我们还与可以访问边界框进行监督的方法进行了比较。我们采用了与这些基线方法相同的强监督/弱监督划分即1.4K个强标注图像和9K个弱标注图像。 从表2可以看出在相同的设置下我们的方法取得了比WSSL更好的结果即在验证集上分别为65.7%对64.6%在测试集上为67.6%对66.2%。此外我们还与其他使用对象边界框作为弱监督信息而不是图像级标签的方法进行了比较。尽管我们的方法使用了更弱的监督但在验证集和测试集上仍分别取得了具有竞争力和更好的mIoU得分。
4.3.消融分析 然后我们分析了所提出的密集对象定位方法的有效性以及它如何对弱监督和半监督语义分割都带来了好处。
4.3.1.密集目标定位策略 采用的用于对象定位的分类网络使用带有多个膨胀率的卷积块进行增强。来自不同膨胀块的与对象相关的线索可以集成到密集和完整的对象区域中。为了验证这一点图5中可视化了来自不同卷积块和融合结果的定位图样本。我们观察到块d 1能够以高精度但低召回率定位对象目标对象的大部分区域被忽略。通过利用具有较大膨胀率d 3,6,9的其他块一些其他与对象相关的区域也被突出显示例如第一行中右侧猫的身体d 6和第二行中摩托车的一些部分d 3和d 6。然而我们注意到如果采用较大的膨胀率例如与d 6和d 9对应的那些定位图也会突出显示一些真负区域。例如我们可以观察到地图中的中心区域第5行第6列对于狗这一类别具有区分能力。原因是当进行中心像素的卷积操作时扩大的卷积核感知到周围两只狗的上下文从而提高了产生的卷积特征的区分能力。 可以观察到真正的正面对象相关区域通常由两个或更多的定位图共享而误报的区域则根据膨胀率而异。为了防止虚假的对象相关区域被突出显示我们对这些具有较大膨胀率的定位图进行平均操作。然后我们将得到的定位图与d 1块产生的定位图相加生成最终结果。从图5可以看出即使对于一些具有挑战性的情况如多类别和多实例大多数对象的区域仍在最终融合的定位图中得到了突出显示。 此外我们方法值得强调的一个优点是我们可以根据生成的密集定位图使用一个固定的阈值来准确获取大部分对象区域而不受对象尺度的影响。然而对于没有扩大膨胀率即d 1的定位图使用固定阈值准确提取对象区域非常困难如图1b和图5所示。特别是对于大型对象我们需要一个较小的阈值来发现大多数与对象相关的区域。然而对于小型对象阈值需要较大以防止出现真负区域。 我们在图5的底部一行展示了一个失败案例。这个样本具有以下特点即当d 1时对象具有较大的尺度而区分性区域只在目标对象的一端稀疏地突出显示。在这种情况下使用较小的膨胀率将区分性知识从头部传输到尾部是困难的。我们相信一些技术如[33]中提出的对抗擦除技术可能有助于解决这个问题。
4.3.2.弱监督语义分割 表3显示了使用不同定位图生成的分割掩模作为学习分割网络的监督的比较结果。我们观察到通过扩大卷积核的膨胀率性能逐渐提高从50.3%提高到54.4%这进一步验证了使用扩张卷积块进行对象定位的有效性。此外基于所提出的抗噪声融合策略生成的密集定位图mIoU分数进一步提高到57.1%这进一步证明了这种策略用于突出显示对象和去除噪声的有效性。需要注意的是我们还尝试通过对所有卷积块包括d 1的定位图进行平均来生成密集定位图。与使用当前融合策略相比mIoU分数下降了近1%。此外与使用一个膨胀率相同的四个卷积块例如d 1相比mIoU没有显著改善。由于条件随机场CRF被认为是语义分割的标准后处理操作并且被所有先前的工作用于进一步提高性能因此我们系统地使用CRF来优化预测的掩模以便与其他最新技术进行公平比较。我们可以观察到我们的方法最终在验证集和测试集上分别达到了60.4%和60.8%的mIoU分数并超过了所有其他弱监督方法。
图5.不同膨胀块产生的定位图示例以及具有抗噪声融合策略的密集定位图。底部两行显示了两个失败案例。
表3.在PASCAL VOC 2012数据集上使用不同定位图的mIoU得分比较。
4.3.3.半监督语义分割 表4显示了在半监督方式下使用不同的强/弱标注集进行分割网络学习的结果。我们观察到通过将强标注图像的数量从1.4K减少到500性能仅下降了0.9%这表明我们的方法即使在数量较少的强标注图像下也能轻松获得可靠的分割结果。基于生成的密集定位图在CRF后处理的情况下我们在验证集和测试集上取得了新的最佳结果基于1.4K强标注图像。我们还在另一种设置下进行评估使用2.9K强标注图像进行训练。我们可以看到相应的mIoU得分为68.5%与[21]中报告的结果相同。由于[21]和本文都基于相同的基本分割网络当强标注图像的数量超过一定阈值时性能可能会达到饱和状态。我们在图6中可视化了一些预测的分割掩模显示出我们的方法可以在较少甚至没有强标注图像的情况下实现令人满意的分割结果。
表4.在PASCAL VOC 2012数据集上使用不同的强/弱标注集进行的mIoU得分比较。 图6.我们的方法在弱监督和半监督方式下预测的分割掩模示例。
5.总结 我们重新审视了膨胀卷积并提出利用不同膨胀率的多个卷积块生成密集的目标定位图。我们的方法易于实现并且生成的密集定位图可以用于在弱监督或半监督方式下学习语义分割网络。我们在这两个具有挑战性的任务上取得了新的最佳mIoU得分。这项工作为仅使用分类网络来挖掘密集目标区域铺平了一条简单而全新的道路。如何通过将判别区域从一端扩展到另一端来解决失败案例并在大规模数据集如MS COCO [18]和ImageNet [4]上进行实验将成为我们未来的工作。