建设网站银行,安徽建设厅网站打不开,企业文化策划咨询公司,phpmysql网站模板标题#xff1a;GraphFPN: Graph Feature Pyramid Network for Object Detection 会议#xff1a;ICCV2021 论文地址#xff1a;https://ieeexplore.ieee.org/document/9710561/
Abstract
特征金字塔已经被证明在需要多尺度特征的图像理解任务中是强大的。SOTA的多尺度特征…标题GraphFPN: Graph Feature Pyramid Network for Object Detection 会议ICCV2021 论文地址https://ieeexplore.ieee.org/document/9710561/
Abstract
特征金字塔已经被证明在需要多尺度特征的图像理解任务中是强大的。SOTA的多尺度特征学习方法侧重于使用具有固定拓扑结构的神经网络进行跨空间和跨尺度的特征交互。在本文中我们提出了图特征金字塔网络它能够调整其拓扑结构以适应不同的内在图像结构并支持在所有尺度上同时进行特征交互。我们首先为每个输入图像定义一个特定于图像的超像素层次结构来表示其内在的图像结构。图特征金字塔网络的结构继承了这个超像素层次结构。上下文层和层次层旨在实现同一尺度内和不同尺度间的特征交互。contextual层和hierarchical层旨在实现同一尺度内和不同尺度间的特征交互。为了使这些层更加powerful我们通过推广卷积神经网络的全局通道注意力为图神经网络引入了两种类型的局部通道注意力。提出的图特征金字塔网络可以增强来自卷积特征金字塔网络中的多尺度特征。我们通过将图特征金字塔网络集成到Faster R-CNN算法中来在目标检测任务中进行评估。在MS-COCO 2017验证和测试数据集上改进的算法不仅优于SOTA的基于特征金字塔的方法而且优于其他流行的检测方法。
1. Introduction
深度卷积神经网络利用局部连通性和权重共享在计算机视觉任务中取得了一系列突破性进展包括图像识别、目标检测、语义分割等。由于图像中的目标可能具有不同的尺度因此需要在每个不同的尺度上获得具有足够空间分辨率的高层和低层特征融合后的多尺度特征图。这启发了特征金字塔网络FPN及其改进版本如路径聚合网络PANet和特征金字塔转换器FPT等。 每幅图像都具有多尺度的内在结构包括将像素分组为目标部分、将部分进一步分组为目标以及图像空间中目标的空间布局。这种多尺度内在结构因图像而异可以为图像理解和目标识别提供重要线索。但是FPN及其相关方法总是使用与图像内在结构无关的固定的多尺度网络拓扑结构即神经元的2D网格。这种固定的网络拓扑结构对于多尺度特征学习可能不是最优的。根据心理学的证明人类将视觉场景解析为部分-整体的层次结构对不同图像中的部分-整体关系进行动态建模。受此启发研究人员开发了一系列“胶囊”模型用于描述图像特定区域中特定类型的出现。层次结构的分割可以根据超像素的位置和相似度递归地对超像素进行分组生成超像素层次结构。这样一个部分-整体的层次结构可以通过弥补像素和目标之间的语义差距来辅助目标检测和语义分割。 众所周知特征金字塔中的多尺度特征可以通过跨尺度交互以及同一尺度内的交互来增强。现有特征金字塔网络相关方法的另一个局限性是只有来自相邻尺度的特征是直接交互的而来自非相邻尺度的特征则是通过其它的中间尺度间接交互。这一方面是因为匹配相邻两个尺度的分辨率最为方便另一方面是因为现有的交互机制一次处理两个尺度最为方便。相邻尺度之间的交互通常遵循自顶向下或自底向上的顺序。在现有的方案中位于金字塔顶端的最高层特征需要经过多个中间尺度传播并与这些尺度下的特征交互后才能到达金字塔底端的特征。在这种传播和交互过程中精髓的特征信息可能丢失或减弱。 在本文中我们提出了图特征金字塔网络来克服上述限制因为图网络能够适应输入图像的不同内在结构并且支持跨所有尺度同时的特征交互。我们首先为输入图像定义一个超像素层次结构。这个超像素层次结构有多个层次每个层次由一组不重叠的超像素组成定义了输入图像的一个分割。从输入图像的同一层次结构分割中提取层次结构的各层分割。因此层次结构中相邻两个层次的超像素是密切相关的。粗粒度上的每个超像素是细粒度上超像素的并集。超像素在两个层次上的这种一对多的对应关系定义了上述部分-整体关系也可以称为祖先-后代关系。层次结构分割及其派生的超像素层次结构揭示了图像的内在结构。虽然超像素对图像进行了过度分割但同一超像素中的像素通常属于同一语义目标/部分并不会跨越语义目标/部分的边界。因此超像素具有比均匀图像分割中的单元更同性的像素更有效地防止了背景杂质和前景目标之间的特征混合。 为了有效地利用图像的内在结构我们的图特征金字塔网络的实际结构通过输入图像的上述超像素层次结构来确定。事实上图特征金字塔网络通过将超像素映射到图结点的方式将其结构从超像素层次结构继承过来。图的边建立在同一层次的相邻超像素之间以及祖先-后裔关系中对应的超像素之间。图特征金字塔网络中的层与特征提取主干中的一个子集层之间也建立了对应关系。所有图结点上的初始特征首先从其在主干中对应位置的特征映射而来。contextual和hierarchical图神经网络层分别被设计用来促进同一尺度内和不同尺度间的特征交互。hierarchical层使得来自所有不同尺度的对应特征直接交互。将图特征金字塔各层的最终特征与传统特征金字塔网络中的特征进行融合就产生了增强的多尺度特征。 我们在本文中的贡献总结如下。
我们提出了一种新的图特征金字塔网络来利用图像的内在结构并支持跨所有尺度同时的特征交互。这种图特征金字塔网络继承了输入图像的超像素层次结构。contextual和hierarchical层分别被设计用来促进同一尺度内和不同尺度间的特征交互。通过推广现有的卷积神经网络全局通道注意力机制我们进一步引入了两种类型的图神经网络局部通道注意力机制。在MS-COCO 2017验证和测试数据集上的大量实验表明我们的图特征金字塔网络能达到明显优于现有SOTA目标检测方法的性能无论它们是否基于特征金字塔。消融研究的结果进一步验证了所提出的网络组件的有效性。
2. Related Work
特征金字塔。 在目标检测和语义分割中特征金字塔在多个尺度上呈现高层特征图并与主干网络一起工作以实现跨多个尺度的性能提升和平衡。最近关于特征金字塔的工作可以分为3类自顶向下网络、自顶向下/自底向上网络和基于注意力的方法。特征金字塔网络FPN利用深度卷积神经网络内在的多尺度、金字塔层次结构构建具有横向连接的自顶向下结构获得所有尺度下的高层语义特征图。路径聚合网络PANet通过自底向上的路径增强来缩短底层特征与最顶层特征之间的信息路径以增强特征的层次结构。ZigZagNet不仅通过自顶向下和自底向上的稠密聚合而且通过自顶向下和自底向上不同层次结构之间的锯齿交叉来丰富多层次的上下文信息。特征金字塔转换器通过3个转换器进行跨空间和跨尺度的主动特征交互。自转换器实现了单个特征图内部的非局部交互grounding/rendering转换器实现了特征金字塔相邻层之间自顶向下/自底向上的连续交互。 本文旨在填补不同金字塔层的特征图之间的语义差距。与上述工作相比我们的图特征金字塔网络最独特的特点是图特征金字塔的拓扑结构会动态适应输入图像的内在结构。此外我们构建了一个跨所有尺度的图神经网络使得跨所有尺度同时的特征交互成为可能。 图神经网络。 图神经网络能够灵活地建模结点间的依赖关系可以用于数据结构不规则的场景。图卷积网络GCN通过对图进行频域卷积来在结点间传播信息。图注意力网络GAT利用局部自注意力层为相邻结点指定权重在许多任务中得到了普及。Gao等人提出了结合图池化和去池化操作的图U-Net。图池化层依靠可训练的相似性度量自适应地选择结点子集以形成更粗粒度的图而图去池化层则利用保存的信息将图反转为其成对池化操作之前的结构。 我们在GraphFPN中采用了GAT中的自注意力机制。为了进一步提高结点特征的识别力我们通过推广现有CNNs的全局通道注意力机制为GNNs引入局部通道注意力机制。与图U-Net相比我们的图金字塔是建立在超像素层次结构上的。其结点的合并和分离操作不仅基于局部相似性排序而且依赖于图像的内在结构这使得我们的GraphFPN在图像理解任务中更加有效。 层次结构分割和GLOM。 通过建立部分-整体的层次结构来理解图像一直是计算机视觉中长期存在的开放式问题。MCG和COB中的层次结构分割算法可以利用检测到的边界将图像的像素组合成超像素。这些超像素是分层形成的以自底向上的方式描述目标。Hinton提出了GLOM假想系统旨在使用具有固定结构的神经网络将图像解析为特定于图像的部分-整体层次结构。 给定一幅输入图像我们使用COB中的层次结构分割来构建特定于图像的超像素层次结构并在此基础上进一步构建图特征金字塔网络。本文的贡献之一在于利用特定于图像的部分-整体层次结构来增强多尺度特征学习这将有利于包括目标检测在内的图像理解任务。
3. Graph Feature Pyramid Networks 3.1. Superpixel Hierarchy
在层次结构分割中像素或者更小的超像素通过相似性度量被递归地分组为更大的像素。给定一幅图像I\boldsymbol{I}I我们依靠卷积定向边界COB来获得一个层次结构分割即一族图像划分{S0,S1,...,SL}\{\mathcal{S}^0,\mathcal{S}^1,...,\mathcal{S}^L\}{S0,S1,...,SL}。注意S0\mathcal{S}^0S0中的每个超像素都是原始输入图像中的单个像素SL\mathcal{S}^LSL只有一个代表整个图像的超像素Sl\mathcal{S}^lSl和Sl−1\mathcal{S}^{l-1}Sl−1中超像素的数量仅相差一个即Sl\mathcal{S}^lSl中的一个超像素是Sl−1\mathcal{S}^{l-1}Sl−1中两个超像素的并集。 本文从{S0,S1,...,SL}\{\mathcal{S}^0,\mathcal{S}^1,...,\mathcal{S}^L\}{S0,S1,...,SL}中选取一个划分子集定义一个超像素层次S{Sl1,Sl2,Sl3,Sl4,Sl5}\mathcal{S}\{\mathcal{S}^{l_1},\mathcal{S}^{l_2},\mathcal{S}^{l_3},\mathcal{S}^{l_4},\mathcal{S}^{l_5}\}S{Sl1,Sl2,Sl3,Sl4,Sl5}其中S\mathcal{S}S的上标表示分割层次结构中的划分层Sl1\mathcal{S}^{l_1}Sl1是层次结构中最精细的超像素集合Sli1\mathcal{S}^{l_{i1}}Sli1中的超像素是Sli\mathcal{S}^{l_i}Sli中超像素的并集。为了匹配卷积神经网络中的下采样率选择{l1,l2,l3,l4,l5}\{l_1,l_2,l_3,l_4,l_5\}{l1,l2,l3,l4,l5}使得Sli1\mathcal{S}^{l_{i1}}Sli1中的超像素数量为Sli\mathcal{S}^{l_i}Sli中的1/41/41/4。然后超像素层次结构S\mathcal{S}S可以用来表示输入图像的部分-整体层次结构并跟踪超像素之间的祖先-后代关系。
3.2. Multi-scale Graph Pyramid
我们构建了一个图金字塔{G1,G2,G3,G4,G5}\{\mathcal{G}^1,\mathcal{G}^2,\mathcal{G}^3,\mathcal{G}^4,\mathcal{G}^5\}{G1,G2,G3,G4,G5}其层对应了超像素层次结构中的层。超像素层次结构中的每个超像素在图金字塔的对应层上都有一个对应的图结点。因此当我们从图金字塔的一层移动到下一个更高的层时结点的数量也减少了4倍。我们为图金字塔定义了两类边。它们被称为contextual边和hierarchical边。contextual边连接同一层的两个相邻结点而hierarchical边连接不同层的两个结点如果它们对应的超像素之间存在祖先-后代关系的话。contextual边用于在同一层内传播上下文信息而hierarchical边则用于弥补不同层之间的语义差距。注意hierarchical边是稠密的因为每个结点与其祖先和后代之间都有这样一条边。这些稠密连接会带来较大的计算和内存开销。因此每个hierarchical边都与其结点特征之间的余弦相似度相关联我们根据它们的余弦特征相似度对hierarchical边进行剪枝。在所有关联到结点的hierarchical边中排名在最后50%的边会被删除。
3.3. Graph Neural Network Layers
在图金字塔的基础上构建一个名为GraphFPN的图神经网络。GraphFPN中存在两种类型的层contextual层和hierarchical层。这两类层在图金字塔中使用相同的结点集合但是不同的图边集合。contextual层只使用contextual边而hierarchical层只使用剪枝后的hierarchical边。我们的GraphFPN在开始有L1L_1L1个contextual层中间有L2L_2L2个hierarchical层最后有L3L_3L3个contextual层。更重要的是这些层中的每一层都有自己可学习的参数这些参数不与其它层共享。为了简单起见在我们的实验中L1L_1L1、L2L_2L2和L3L_3L3总是相等的在消融实验中讨论了它们具体值的选择。 尽管contextual层和hierarchical层使用不同的边但这两类层中的GNN操作完全相同。两种类型的层共享相同的空间和通道注意力机制。我们简单地采用图注意力网络中的自注意力机制作为我们的空间注意力。给定结点iii及其邻居集合Ni\mathcal{N}_iNi空间注意力按照下式更新特征 h⃗i′M(h⃗i,{h⃗j}j∈Ni)\vec{h}_i^\prime\mathcal{M}(\vec{h}_i,\{\vec{h}_j\}_{j\in\mathcal{N}_i}) hi′M(hi,{hj}j∈Ni)其中M\mathcal{M}M是单头自注意力h⃗j∈Ni\vec{h}_{j\in\mathcal{N}_i}hj∈Ni是从结点iii的邻居中获得的特征向量集合h⃗i\vec{h}_ihi和h⃗i′\vec{h}_i^\primehi′分别是结点iii更新前后的特征向量。 通道注意力机制由基于平均池化的局部通道级注意力模块和局部通道自注意力模块组成。在基于平均池化的局部通道级注意力中首先对结点iii及其邻居的特征向量进行平均得到特征向量a⃗i′∈RC\vec{a}_i^\prime\in\mathbb{R}^Cai′∈RC。我们把平均后的特征向量通过一个带有sigmoid激活的全连接层并在得到的结果和h⃗i′\vec{h}_i^\primehi′之间执行元素相乘 h⃗i′′σ(W1a⃗i′)⊙h⃗i′\vec{h}_i^{\prime\prime}\sigma(\boldsymbol{W}_1\vec{a}_i^\prime)\odot\vec{h}_i^\prime hi′′σ(W1ai′)⊙hi′其中σ\sigmaσ是sigmoid函数W1∈RC×C\boldsymbol{W}_1\in\mathbb{R}^{C×C}W1∈RC×C是全连接层可学习的权重矩阵⊙\odot⊙表示逐像素相乘。在局部通道自注意力模块中首先获取结点iii及其邻居结点的特征向量集合A\boldsymbol{A}A并将其reshape到R(∣Ni∣1)×C\mathbb{R}^{(|\mathcal{N}_i|1)×C}R(∣Ni∣1)×C。这里∣Ni∣|\mathcal{N}_i|∣Ni∣是结点iii的邻居数量。然后得到通道相似矩阵XATA∈RC×C\boldsymbol{X} \boldsymbol{A}^{\mathrm T}\boldsymbol{A}\in\mathbb{R}^{C×C}XATA∈RC×C并对X\boldsymbol{X}X的每一行使用softmax函数。局部通道自注意力模块的输出为 h⃗i′′′βXh⃗i′′h⃗i′′\vec{h}_i^{\prime\prime\prime}\beta\boldsymbol{X}\vec{h}_i^{\prime\prime}\vec{h}_i^{\prime\prime} hi′′′βXhi′′hi′′其中β\betaβ是可学习的权重初始化为0。 我们的局部通道级注意力和局部通道自注意力是受到SENet和双注意力网络Dual Attention Network的启发。主要区别在于我们的通道注意力定义在局部邻居内因此在空间上因结点而异而SENet和双注意力网络对所有空间位置的特征使用相同的通道注意力。图神经网络中局部通道注意力的优点包括更低的计算成本和更高的空间自适应性因此非常适合像GraphFPN这样的大型网络。表5的消融实验表明我们的双局部通道注意力在GraphFPN中相当有效。
3.4. Feature Mapping between GNN and CNN
卷积神经网络可以保留部分和目标的位置信息这显然有利于目标检测而图神经网络可以跨多个语义尺度灵活地建模部分和目标之间的依赖关系。注意卷积神经网络中的主干和FPN分别负责多尺度编码和解码而我们的GraphFPN主要负责多尺度解码。因此主干特征作为GraphFPN的输入。为了利用这两种特征金字塔网络的优势我们还融合了GraphFPN和卷积FPN的最终特征。因此我们需要映射来自主干特征以初始化GraphFPN也需要在特征融合之前将最终特征从GraphFPN映射到卷积FPN。主干和卷积FPN中的多尺度特征图分别记为C{C1,C2,C3,C4,C5}\mathcal{C}\{\mathcal{C}^1,\mathcal{C}^2,\mathcal{C}^3,\mathcal{C}^4,\mathcal{C}^5\}C{C1,C2,C3,C4,C5}和P{P1,P2,P3,P4,P5}\mathcal{P}\{\mathcal{P}^1,\mathcal{P}^2,\mathcal{P}^3,\mathcal{P}^4,\mathcal{P}^5\}P{P1,P2,P3,P4,P5}。注意C\mathcal{C}C中的特征图是主干中最后5个卷积阶段的特征图。 从CNN到GNN的映射C↦S\mathcal{C}\mapsto\mathcal{S}C↦S 我们将主干Ci\mathcal{C}^iCi的第iii个特征图映射到S\mathcal{S}S中的第iii层Si\mathcal{S}^iSi。Ci\mathcal{C}^iCi中的特征位于一个矩形网格上每个网格单元对应原始输入图像中的一个矩形区域而Si\mathcal{S}^iSi中的超像素通常具有不规则的形状。如果多个超像素与Ci\mathcal{C}^iCi中相同的网格单元部分地重叠如图2所示那么我们将网格单元分配给重叠程度最大的超像素。这样的分配导致一个小的网格单元集合CkiC_k^iCki被分配给Si\mathcal{S}^iSi中相同的超像素RkiR_k^iRki。我们对该集合同时执行最大池化和最小池化并使用ReLU激活将concatenate池化结果输入到全连接层。RkiR_k^iRki的映射特征可以写为 h⃗kiδ(W2[(Δmax(Cki)∣∣Δmin(Cki))])\vec{h}_k^i\delta(\boldsymbol{W}_2[(\Delta_{max}(C_k^i)||\Delta_{min}(C_k^i))]) hkiδ(W2[(Δmax(Cki)∣∣Δmin(Cki))])其中δ\deltaδ表示ReLU激活W2\boldsymbol{W}_2W2表示全连接层可学习的权重矩阵∣∣||∣∣表示concatenate操作Δmax(Cki)\Delta_{max}(C_k^i)Δmax(Cki)和Δmin(Cki)\Delta_{min}(C_k^i)Δmin(Cki)分别表示最大池化和最小池化操作。 从GNN到CNN的映射S↦P\mathcal{S}\mapsto\mathcal{P}S↦P 一旦我们向前通过GraphFPN我们将其最后一层的特征映射到卷积特征金字塔P\mathcal{P}P。令PkiP_k^iPki表示Pi\mathcal{P}^iPi中网格单元的集合它被分配给Si\mathcal{S}^iSi中的超像素RkiR_k^iRki。我们简单地将RkiR_k^iRki处的最终特征复制到PkiP_k^iPki中的每个网格单元。这样我们为卷积FPN的第iii层获得了一个新的特征图P‾i\overline{\mathcal{P}}^iPi。我们将Pi\mathcal{P}^iPi与P‾i\overline{\mathcal{P}}^iPi进行concatenate并将concatenate后的特征图输入到一个具有1×1卷积核的卷积层以确保融合后的特征图P~i\widetilde{\mathcal{P}}^iPi具有与Pi\mathcal{P}^iPi相同的通道数。最终融合后的特征金字塔为P~{P~1,P~2,P~3,P~4,P~5}\widetilde{\mathcal{P}}\{\widetilde{\mathcal{P}}^1,\widetilde{\mathcal{P}}^2,\widetilde{\mathcal{P}}^3,\widetilde{\mathcal{P}}^4,\widetilde{\mathcal{P}}^5\}P{P1,P2,P3,P4,P5}。
3.5. Object Detection
本文提出的图特征金字塔网络可以集成到FPN的目标检测pipeline中用上述融合特征金字塔代替传统的FPN。我们采用Faster-RCNN作为检测算法并进行相同的端到端训练。
4. Experiments
介绍了数据集和实现细节。使用COB项目提供的代码计算层次结构分割并在数据准备过程中为每张图像构建超像素层次结构。构建一幅图像的超像素层次结构平均需要0.120秒对于目标检测任务是合理的。注意COB中使用的机器学习模型总是在与检测任务相同的训练集上进行训练。
4.1. Comparison with State-of-the-Art Methods 和SOTA的对比实验具体的实验结论可以参照原文。
4.2. Comparison with Other Object Detectors 和其它主流检测器的对比实验具体的实验结论可以参照原文。
4.3. Learnable Parameters and Computational Cost Params、GFLOPs和测试速度。具体的实验结论可以参照原文。
4.4. Ablation Studies
为了研究GraphFPN中各个组件的有效性我们通过替换或移除pipeline中的单个组件进行消融实验。我们专门针对GNN层的配置不同类型GNN层的组合与排序、GNN层的总数以及空间和通道注意力机制设计了消融实验。 GNN层的配置。 在我们最终的pipeline中各层的具体配置如下第一组contextual层一组hierarchical层第二组contextual层。所有组的层数都相同。 在跨尺度操作之前需要在同一尺度内传播上下文信息。即使在第一组contextual层之后紧接着一组hierarchical层上下文信息传播仍然是有帮助的。两类层实际上是相辅相成的。具体的实验结论可以参照原文。 GNN的层数。 当图层数量过多时性能变差。我们将此归因于梯度消失。具体的实验结论可以参照原文。 注意力机制。 空间注意力在建模邻居依赖方面是强大的。两种局部通道注意力机制是互补的显著提高了深层特征的识别能力。具体的实验结论可以参照原文。
5. Conclusions
在本文中我们提出了图特征金字塔网络它能够适应输入图像的不同内在结构并支持跨所有尺度同时的特征交互。我们的图特征金字塔网络的结构继承了根据层次结构分割构建的超像素层次结构。定义contextual图神经网络层和hierarchical图神经网络层分别实现同一尺度内和不同尺度间的特征交互。为了使这些层更加强大我们进一步为图神经网络引入了两种类型的局部通道注意力。在MS-COCO 2017验证和测试数据集上的实验表明集成了图特征金字塔网络的Faster R-CNNFPN优于现有的SOTA目标检测方法。