当前位置: 首页 > news >正文

access做网站网站建设 徐州

access做网站,网站建设 徐州,廊坊网站关键词优化,软文广告100字原文链接:https://doi.org/10.1109/cvpr52688.2022.00475 author{Zhuofan Xia and Xuran Pan and Shiji Song and Li Erran Li and Gao Huang} 一、介绍 Transformer最初是为了处理自然语言处理任务而提出的。最近#xff0c;它在计算机视觉领域展示了巨大的潜力。先锋工作V…原文链接:https://doi.org/10.1109/cvpr52688.2022.00475 author{Zhuofan Xia and Xuran Pan and Shiji Song and Li Erran Li and Gao Huang} 一、介绍 Transformer最初是为了处理自然语言处理任务而提出的。最近它在计算机视觉领域展示了巨大的潜力。先锋工作Vision TransformerViT通过堆叠多个Transformer块处理非重叠的图像块即视觉标记序列构建了一种无卷积的图像分类模型。与卷积神经网络CNN相比基于Transformer的模型具有更大的感受野能够更好地建模长距离依赖关系已被证明在大量训练数据和模型参数的情况下表现出色。然而视觉识别中冗余的注意力机制是把双刃剑存在多个缺点。具体来说每个查询块需要关注的键的过多数量导致了高计算成本和慢收敛同时增加了过拟合的风险。 为了避免过度的注意力计算现有的研究工作[6, 11, 26, 36, 43, 49]采用精心设计的高效注意力模式来降低计算复杂性。在这些方法中Swin Transformer [26]采用基于窗口的局部注意力限制注意力在局部窗口内而Pyramid Vision Transformer (PVT) [36]则通过下采样键和值特征图来节省计算。尽管这些方法有效但手工设计的注意力模式是与数据无关的可能并非最佳选择。这可能导致相关的键/值被忽略而不重要的键/值却被保留。 理想情况下我们希望给定查询的候选键/值集能够灵活并适应每个输入从而缓解手工稀疏注意力模式的问题。实际上在卷积神经网络的文献中学习可变形感受野的卷积滤波器已被证明在基于数据的选择性关注更有信息的区域方面非常有效[9]。最显著的工作是可变形卷积网络Deformable Convolution Networks[9]在许多具有挑战性的视觉任务上取得了显著的成果。这激励我们在视觉Transformer中探索可变形注意力模式。然而这一思想的简单实现会导致不合理的高内存/计算复杂度可变形偏移所带来的开销与补丁的数量呈平方关系。因此尽管一些近期的研究[7, 46, 54]探讨了Transformer中的可变形机制但由于计算成本高没有将其视为构建强大骨干网络的基本构件如DCN。相反它们的可变形机制要么应用于检测头[54]要么用作预处理层以对后续骨干网络进行补丁采样[7]。 在本文中我们提出了一种简单而高效的可变形自注意力模块基于此构建了一个强大的金字塔骨干网络命名为可变形注意力TransformerDeformable Attention Transformer, DAT用于图像分类和各种密集预测任务。与可变形卷积网络DCN为整个特征图的不同像素学习不同的偏移量不同我们建议学习少量与查询无关的偏移量组以将键和值移动到重要区域如图1(d)所示。这一设计基于观察[3, 52]即全局注意力通常对不同查询产生几乎相同的注意力模式。该设计具有线性空间复杂度并为Transformer骨干网络引入了可变形注意力模式。 具体来说对于每个注意力模块首先生成参考点作为均匀网格这些网格在输入数据中保持一致。然后偏移网络以查询特征为输入为所有参考点生成相应的偏移量。通过这种方式候选键/值被移动到重要区域从而增强了原始自注意力模块的灵活性和效率以捕捉更多有信息的特征。 总结而言我们的贡献如下我们提出了首个可变形自注意力骨干网络用于视觉识别其中数据依赖的注意力模式提供了更高的灵活性和效率。在ImageNet [10]、ADE20K [51]和COCO [25]上的大量实验证明我们的模型在图像分类的top-1准确率上比竞争基线包括Swin Transformer提高了0.7在语义分割的mIoU上提高了1.2在目标检测的框AP和掩码AP上均提高了1.1。对小物体和大物体的优势更加明显差距达到2.1。 DAT与其他Vision Transformer模型和CNN模型中的DCN的比较。红色星星和蓝色星星表示不同的查询而具有实线边界的掩码表示查询所涉及的区域。在数据不可知的方式aViT [12]对所有查询采用完全注意。(b)Swin Transformer [26]使用分区窗口注意。以数据相关的方式cDCN [9]为每个查询学习不同的变形点。(d)DAT学习所有查询的共享变形点。 二、相关工作 Transformer视觉骨干网络。 自从ViT [12]的引入以来改进工作[6, 11, 26, 28, 36, 43, 49]主要集中在学习多尺度特征以应对密集预测任务和高效的注意力机制。这些注意力机制包括窗口注意力[11, 26]、全局标记[6, 21, 32]、聚焦注意力[43]以及动态标记大小[37]。最近基于卷积的方法也被引入到视觉Transformer模型中。其中一些研究致力于通过卷积操作补充Transformer模型以引入额外的归纳偏置。CvT [39]在标记化过程中采用卷积并利用步幅卷积来降低自注意力的计算复杂性。带卷积前缀的ViT [41]提出在早期阶段加入卷积以实现更稳定的训练。CSwin Transformer [11]采用基于卷积的位置信息编码技术并在下游任务中显示出改进。这些基于卷积的技术有可能在DAT的基础上进一步提升性能。 可变形卷积和注意力。 可变形卷积[9, 53]是一种强大的机制能够根据输入数据关注灵活的空间位置。最近它已被应用于视觉Transformer中[7, 46, 54]。可变形DETR [54]通过为每个查询选择少量键来改善DETR [4]的收敛性这一方法建立在卷积神经网络CNN骨干之上。然而其可变形注意力并不适合用于特征提取的视觉骨干因为键的不足限制了表示能力。此外可变形DETR中的注意力来自简单学习的线性投影且键在查询标记之间并未共享。DPT [7]和PS-ViT [46]构建了可变形模块来细化视觉标记。具体来说DPT提出了一种可变形补丁嵌入方法用于在不同阶段细化补丁而PS-ViT则在ViT骨干之前引入了一种空间采样模块以改善视觉标记。然而它们都未将可变形注意力纳入视觉骨干网络。相比之下我们的可变形注意力采用了一种强大而简单的设计学习一组在视觉标记之间共享的全局键可以作为各种视觉任务的通用骨干网络。我们的方法也可以视为一种空间自适应机制这在多项研究中已被证明有效[16, 38]。 三、Deformable Attention Transformer 1.Preliminaries 我们首先回顾最近的视觉Transformer的注意力机制。以平坦化的特征映射x ∈ RN×C作为输入具有M个头部的多头自注意MHSA块被公式化为 其中σ·表示softmax函数d C/M是每个头部的尺寸。zm表示从第m个注意头输出的嵌入qmkmvm∈ RN×d分别表示查询键和值嵌入。WqWkWvWo ∈ RC×C是投影矩阵。为了构建Transformer块通常采用具有两个线性变换和GELU激活的MLP块来提供非线性。使用规范化层和标识快捷方式第l个Transformer块被公式化为 其中LN是层归一化[1]。 2.Deformable Attention 现有分层视觉变换器的下采样技术特别是PVT [36]和Swin Transformer [26]试图解决过度关注的挑战。前者会导致严重的信息丢失而后者的移位窗口注意力则导致感受野的增长速度显著减慢限制了对大型对象的建模潜力。因此需要一种数据依赖的稀疏注意力来灵活地建模相关特征从而引出最初在 DCN [9] 中提出的可变形机制。然而简单地将 DCN 实现到 Transformer 模型中并非易事。在 DCN 中特征图上的每个元素都单独学习其偏移量其中在H×W×C特征图上的 3 x 3 可变形卷积的空间复杂度为 9HWC 。如果直接将相同的机制应用到注意力模块中空间复杂度将急剧上升至 Nq​Nk​C其中 Nq​,Nk​分别是查询和键的数量通常与特征图大小 HW 具有相同的尺度带来近似二次复杂度。尽管 Deformable DETR [54] 通过在每个尺度上设置较少的键数量即 Nk​4并作为检测头有效地工作从而成功地减少了此开销但在主干网络中使用如此少的键进行注意力会导致不可接受的信息损失详见附录中的比较。与此同时文献 [3, 52] 中的观察结果表明不同查询在视觉注意模型中具有相似的注意力图。因此我们选择了一种更简单的解决方案为每个查询共享移位的键和值以实现高效的权衡。 具体来说我们提出了可变形注意力在特征图中重要区域的指导下有效地建模 token 之间的关系。这些重点区域由多个组的变形采样模式确定并由多个组管理。每个模式表示特征图中的一组可变形采样点以跨越不同尺度捕获依赖性。 从特征图中采样的特征被传递给键和值的投影以生成变形的键和值。最后标准的多头注意力被应用于将查询与采样键关联起来并从变形后的值中聚合特征。此外变形点的位置提供了更强大的相对位置偏差以促进变形注意力的学习这将在后续部分中讨论。 这是我们的变形注意机制的一个例子。(a)给出了可变形注意的信息流。在左侧部分一组参考点均匀地放置在要素图上其偏移量通过偏移网络从查询中获知。然后根据变形点从采样特征中投影出变形的关键帧和值如右图所示。通过计算变形点的相对位置偏差增强了输出变换特征的多头注意力。我们只展示了4个参考点以便清楚地介绍事实上在真实的实施中还有更多的点。(b)显示了偏移生成网络的详细结构用特征图的大小标记。 变形注意力模块。 如图 2(a) 所示给定输入特征图 x∈RH×W×C生成一个均匀的点网格 p∈RHG×WG×2 作为参考点。具体来说网格大小通过因子 r 从输入特征图大小下采样HGH/r、WG​W/r。参考点的值是线性分布的二维坐标 {(0,0),…,(HG−1,WG−1)}然后根据网格形状 HG×WG​ 将其归一化到范围 [−1,1]其中 (−1,−1)表示左上角(1,1) 表示右下角。为了获得每个参考点的偏移量将特征图线性投影到查询 token qxWq然后输入到轻量级子网络 θoffset(⋅)中以生成偏移量 Δpθoffset(q)。为稳定训练过程我们通过预设的因子 s来缩放 Δp 的幅度以生成更大的偏移值即 Δp←stanh⁡(Δp)。然后使用调整后的参考点对特征图进行索引获得采样特征。作为键和值然后是投影矩阵 k˜和˜v分别表示变形的键和值嵌入。具体来说我们将采样函数φ·; ·设置为双线性插值以使其可微 其中gab max01 - |a −b|和rxry索引z∈RH×W×C上的所有位置。由于g仅在最接近pxpy的4个积分点上为非零因此简化了等式1。(8)到4个位置的加权平均值。与现有方法类似我们对qkv执行多头注意并采用相对位置偏移R。注意力头的输出被公式化为 其中φB; R∈ RHW×HGWG对应于先前工作[26]中的位置嵌入但有几个修改。详细信息将在本节稍后进行解释。每个头部的特征被连接在一起并通过Wo投影以得到如等式3所示的最终输出z。如前所述采用子网络来生成偏移该子网络消耗查询特征并分别输出参考点的偏移值。考虑到每个参考点覆盖一个局部 s×s 区域其中 s 是最大的偏移范围生成网络还需要具备局部特征的感知能力以学习合理的偏移。因此我们将子网络实现为两个卷积模块并使用非线性激活函数如图 2(b) 所示。输入特征首先通过一个 5×5 深度卷积来捕获局部特征。然后使用 GELU 激活和 1×1卷积以获得 2D 偏移。值得注意的是在 1×1卷积中移除了偏置项以缓解所有位置的强制位移。 偏移组。 为了增加变形点的多样性我们遵循与 MHSA 类似的方式将特征通道分成 G 个组。每组特征使用共享的子网络生成相应的偏移值。在实际应用中注意力模块中的头数 M设置为偏移组大小 G 的倍数确保多个注意力头分配给一组变形后的键和值。 可变形相对位置偏置。 相对位置偏置编码了每个查询和键对之间的相对位置从而在原始注意力中增加了空间信息。对于形状为 H×W的特征图相对坐标位移在两个维度上分别位于 [−H,H]和 [−W,W]的范围内。在 Swin Transformer [26] 中构建了一个相对位置偏置表 B^∈R(2H−1)×(2W−1)通过在两个方向上使用相对位移对该表进行索引以获得相对位置偏置 B。由于我们的可变形注意力允许键的位置连续因此我们在归一化范围 [−1,1]内计算相对位移并根据连续的相对位移对参数化的偏置表 B^∈R(2H−1)×(2W−1)进行插值 ϕ(B^;R)以覆盖所有可能的偏移值。 计算复杂度。 可变形多头注意力DMHA的计算成本与 PVT 或 Swin Transformer 中的注意力模块相似。唯一的额外开销来自用于生成偏移的子网络。整个模块的复杂度可以总结为 其中 NsHGWGHW/r2是采样点的数量。可以立即看出偏移网络的计算成本相对于通道大小具有线性复杂度这相对于注意力模块来说相对较小。例如考虑用于图像分类的 Swin-T 模型的第三阶段其中 HW14Ns49C384单个块中注意力模块的计算成本为 79.63M FLOPs。当配备我们的可变形模块k5时额外的开销为5.08M Flops仅占整个模块的6.0%。此外通过选择较大的下采样因子r复杂度将进一步降低这使得它对具有更高分辨率输入的任务如对象检测和实例分割非常友好。 3.3. Model Architectures 我们将标准的 MHSA 替换为 Transformer 中的可变形注意力Eq.(4)并将其与 MLPEq.(5)结合以构建一个可变形视觉 Transformer 模块。在网络架构方面我们的模型——可变形注意力 TransformerDAT具有与 [7, 26, 31, 36] 相似的金字塔结构这广泛适用于需要多尺度特征图的各种视觉任务。如图 3 所示形状为 H×W×3 的输入图像首先通过一个步幅为 4 的 4×4非重叠卷积嵌入然后通过归一化层获得 H/4×W/4×C的 patch 嵌入。为了构建层次化的特征金字塔主干网络包含 4 个阶段步幅逐步增加。在两个连续的阶段之间有一个步幅为 2 的非重叠 2×2卷积将特征图下采样以使空间尺寸减半并使特征维度加倍。 在分类任务中我们首先对最后阶段输出的特征图进行归一化然后采用具有池化特征的线性分类器来预测 logits。在目标检测、实例分割和语义分割任务中DAT 作为集成视觉模型中的主干以提取多尺度特征。我们为每个阶段的特征添加一个归一化层然后将其输入到后续模块中如目标检测中的 FPN [23] 或语义分割中的解码器。 我们在 DAT 的第三和第四阶段引入了连续的局部注意力和可变形注意力模块。特征图首先通过基于窗口的局部注意力处理以在局部聚合信息然后通过可变形注意力模块来建模局部增强 token 之间的全局关系。该注意力模块交替设计了局部和全局特征替换以增强模型的表示能力尤其是在 GLiT [5]、TNT [15] 和Point former [29]中共享类似的模式。由于前两个阶段主要学习局部特征因此这些早期阶段的可变形注意力不太受欢迎。此外前两个阶段中的键和值具有相当大的空间尺寸这大大增加了可变形注意力中的点积和双线性插值的计算开销。因此为了实现模型容量和计算负担之间的权衡我们仅将可变形注意力置于第三和第四阶段并采用Swin Transformer [26]中的移位窗口注意力以便在早期阶段具有更好的表示。我们以不同的参数和FLOP构建了DAT的三种变体以便与其他Vision Transformer模型进行公平的比较。我们通过在第三阶段堆叠更多的块并增加隐藏维度来改变模型大小。表1中报告了详细的体系结构。注意DAT的前两个阶段还有其他设计选择例如我们在表7中显示了比较结果。 表7.不同阶段应用可变形注意的消融研究。意味着该阶段由连续的局部注意和可变形注意Transformer块组成。注意我们的模型将所有局部和shiftwindow注意力的相对位置索引以及所有可变形注意力的参考网格点纳入参数计数中这可能导致更高数量的参数。
http://www.dnsts.com.cn/news/205153.html

相关文章:

  • 杨思网站建设公司vs网站开发
  • 股权众筹网站开发新手怎么引流推广
  • 江西哪里有做电商网站的公司谷歌seo新规则
  • 企业网站备案价格汕头自助建站软件
  • 国内网站建设网站排名外包网络推广
  • 连云港权威网站优化服务wordpress授权插件
  • c 开发商城网站开发网站建设的教学设计
  • 中国工程建设交易信息网站用照片做视频的模板下载网站好
  • 有关大数据的网站及网址小程序开发视频教程
  • 烟台搭建网站建设制作企业网站建设制作的域名费用
  • 中山外贸网站开发建设厅网站上的信息采集表
  • 食品类网站模板页面设计图片大全
  • 网站维护费用一年多少各网站推广
  • 怎么提高网站的百度收录伊通县建设局网站
  • 龙岗 网站建设哪网站建设公司一般几个人
  • 个人导航网站如何赚钱做外贸需要网站吗
  • 潍坊信息网网站建设网建
  • 石家庄科技网站我是怎么做网站架构的
  • 玉林住房和城乡建设局网站官网在线网页代理服务器
  • 怎么做网站的优化大兴企业官方网站建设
  • 网站建设空格怎么打仿站小工具 wordpress
  • 如何有效提高网站排名网站建设目的
  • 西安给大学做网站公司网站中医建设
  • 怎样做运营一个网站软件开发经费预算
  • 便宜模板网站建设建设网站要学编程吗
  • 深圳手机建站模板搭建一个小程序需要什么
  • wordpress仿都市头条石家庄seo网站优化公司
  • 苏州网站建设一站通wordpress hosts
  • wordpress网站安装插件长沙网站建设论坛
  • 怎么在网站做自己的产品广告公司品牌logo设计