当前位置: 首页 > news >正文

网站开发项目介绍wordpress快速注册

网站开发项目介绍,wordpress快速注册,银川怎么做网站,网站建设 月光博客摘要 本文工作 提出了一种具有透视监督#xff08;perspective supervision#xff09;的新型鸟瞰(BEV)检测器#xff0c;该检测器收敛速度更快#xff0c;更适合现代图像骨干。现有的最先进的BEV检测器通常与VovNet等特定深度预训练的主干相连#xff0c;阻碍了蓬勃发展…摘要 本文工作 提出了一种具有透视监督perspective supervision的新型鸟瞰(BEV)检测器该检测器收敛速度更快更适合现代图像骨干。现有的最先进的BEV检测器通常与VovNet等特定深度预训练的主干相连阻碍了蓬勃发展的图像主干和BEV检测器之间的协同作用。为了解决这一限制我们优先考虑通过引入透视图监督perspective view supervision来简化BEV探测器的优化。为此我们提出了一个两阶段的BEV检测器其中来自透视头的proposals被输入入鸟瞰头进行最终预测。 实验效果 为了评估我们的模型的有效性我们进行了广泛的消融研究重点是监督的形式和所建议的探测器的类型。在大规模NUSCENES数据集上对该方法进行了广泛的传统和现代图像主干的验证取得了新的SOTA结果。 1. 介绍Introduction 鸟瞰识别模型吸引了人们对自动驾驶的兴趣因为它们可以自然地将多个传感器的部分原始观测集成到一个统一的整体3D输出空间中。一个典型的BEV模型建立在一个图像骨干网络上然后是一个视图转换模块该模块将每个特定的图像特征提升为BEV特征然后由BEV特征编码器和一些特定任务的头进行处理。 虽然在设计视图转换器上投入了很多心血和不断增加的下游任务并入新的识别框架中对BEV模型中的图像骨干网络的研究受到的关注要少得多。自动驾驶作为一个前沿、高要求的领域将现代图像骨干网络引入到自动驾驶中是顺理成章的事情。令人惊讶的是学术界为了大规模深度预训练选择坚持Vovnet。在本工作中我们致力于充分发挥现代图像特征提取器在BEV识别中的作用为未来研究人员在该领域探索更好的图像骨干网络设计打开大门。 然而简单地使用这些现代图像骨干网络而不进行适当的预训练是不能产生令人满意的结果的。 例如ImageNet预先训练的ConvNext-XL主干的性能与DDAD-15M预先训练的用于3D目标检测的Vovnet-99不相上下。尽管后者有前者的3.5倍的参数。 我们需要努力适应现代图像骨干的以下问题 自然图像和自动驾驶场景之间的领域差距。在一般的二维识别任务中预先训练的骨干对三维场景的感知能力不足尤其是对深度的估计。目前BEV探测器结构复杂。拿Bevformer作为一个例子。通过视图编码器和对象解码器将三维包围盒和对象类别标签的监督信号从图像主干中分离出来每个视图编码器和对象解码器都由多层transformer组成。适用于自动驾驶任务的一般2D图像骨干的梯度流被堆叠的transformer 层扭曲。 为了克服上述困难采用现代图像主干进行BEV识别我们在Bevformer中引入透视监督即从透视任务发出的监督信号并直接应用于主干。它引导骨干学习二维识别任务中缺少的三维知识克服了BEV检测器的复杂性极大地方便了模型的优化。 具体来说我们构建一个透视3D检测头在主干上以图像特征为输入直接预测目标对象的三维边界框和类标签 作为辅助检测损失将该透视头的损失perspective loss添加到从BEV头导出的原始损失BEV loss中。用相应的损失项联合训练两个分解头。此外我们发现可以很自然的将这两个探测头组合成一个两级BEV探测器BEV-Former V2。由于透视头是完全成熟的它可以在perspective视图中生成高质量的对象建议我们将其用作第一阶段建议。我们将它们编码为对象查询并将它们与原始Bevformer中的可学习查询集合在一起形成混合对象查询然后将混合对象查询送入第二级DetectionHead以生成最终预测。 我们进行了大量的实验来证实我们提出的透视超视觉的有效性和必要性。perspective loss 促进了图像骨干的自适应从而提高了检测效率加快了模型的收敛速度。如果没有这种监督即使用更长的时间表训练该模型也无法实现可比的再输出。因此我们成功地将现代图像主干与BEV模型相适应在NUSCENES上获得了63.4%的NDS2]测试集。 我们的贡献可概括如下 我们指出透视监督是使一般2D图像骨干网络适配到BEV模型的关键。我们通过透视图中的检测损失明确地添加了这种监督。我们提出了一种新型的两级BEV探测器BEV-former V2。它由透视3D和BEV检测头组成前者的建议与后者的对象查询相结合。我们通过将其与最新的图像骨干网络结合起来并在Nuscenes数据集上实现了对以前最优结果的显著改进从而显示了我们方法的有效性。 2. 相关工作Related Works 2.1. BEV三维物体探测器 (BEV 3D Object Detector) 因为在自动驾驶领域的巨大成功BEV目标检测器获得了较多的关注。早期的工作主要是利用单目深度估计和逆透视变化生成伪点云。近期的一些工作倾向于把不同视角下的特征通过2D-3D转换得到3D特征。 2.2. 摄像机三维目标检测中的辅助损失 (Auxiliary Loss in Camera 3D Object Detection) 辅助损失在单目3D目标检测中是普遍存在的。但是它们的辅助损失很少在2D监督上有明确的意义。 2.3. 二阶段的三维物体探测器Two-stage 3D Object Detector 两阶段检测方法在激光雷达3D目标检测中较为常见但图像3D目标检测中极为少见。 3. BEVFormer v2 采用现代2D图像骨干网络进行BEV识别无需进行繁琐的深度预训练可以提高BEV识别效率为下游的自动驾驶任务提供了多种可能性。 在这项工作中我们提出了Bevformer V2一个两阶段的BEV检测器它结合了BEV和透视监督在BEV检测中避免了采用图像骨干的麻烦。 3.1 总体架构Overall Architecture 如图1所示 Bevformer V2主要由图像骨干网络、透视3D检测头、空间编码器、改进型时间编码器和BEV检测头五部分组成。与原始Bevformer相比除了空间编码器以外的所有组件都进行了改造。具体地说Bevformer V2中使用的所有图像骨干网络都不是用任何自动驾驶数据集或深度估计数据集预先训练的。引入透视3D检测头以方便2D图像骨干的自适应并为BEV检测头生成对象proposals。采用了一种新的时域BEV编码器以更好地融合长期的瞬态信息。BEV检测头现在接受混合对象查询集作为输入。我们将第一阶段的建议和学习到的对象查询结合起来形成新的混合对象查询用于第二阶段。 图1: Bevformer V2的整体架构。图像骨干网各生成多视图图像的特征。透视3D头进行透视预测然后将其编码为对象查询。BEV头为编码器-解码器结构。空间编码器通过聚合多视图图像特征生成BEV特征其次是时间编码器收集历史BEV特征。译码器以混合对象查询为输入根据BEV特征进行最终的BEV预测。整个模型用两个检测头的两个损失项和训练。 3.2. 透视监督Perspective Supervision 我们首先分析了鸟瞰模型的问题以解释为什么额外的监督是必要的。一个典型的BEV模型在BEV平面上有对应的网格状的特征其中每个网格聚集来自多视图图像对应的2D像素处的特征的3D信息。它根据BEV特征预测目标对象的3D检测框我们将这种强加在BEV特征上的监督命名为BEV监督。 以Bevformer作为一个例子它使用编码器-解码器结构来生成和利用BEV特性。编码器为BEV平面上的每个网格单元分配一组3D参考点并将它们作为2D参考点投影到多视图图像上。然后对二维参考点周围的图像特征进行采样并利用交叉注意力将其聚合为BEV特征。解码器是一个Deformable DETR头它在BEV坐标中预测3D包围盒并进行少量固定数量的对象查询。图 2 介绍了由3D到2D视图转换和DETR头引入的BEV监督的两个尚未解决的问题 对图像特征的监督是隐含的。这种损失直接作用于BEV特征而经过3D到2D投影和注意力采样attentive samplin后这种损失就间接作用于BEV特征。对图像特征的监督是稀疏的。只有少量用于目标查询的BEV网格才能导致损失。 因此只有那些网格的2d参考点周围的稀疏像素获得监督信号。 因此在训练过程中BEV检测头依赖于包含在图像特征中的三维信息但对骨干如何编码这些信息提供了不足的指导。 以前的BEV方法并没有严重地受到这种不一致性的困扰它们甚至可能没有意识到这个问题。这是因为它们的主干网络要么有相对较小的尺度要么已经用单目检测头预先训练过3D检测任务。与BEV头相比透视3D头对图像特征进行每像素预测为适应2D图像骨干提供更丰富的监督信号。我们将这种强加在图像特征上的监督定义为透视监督。如图2所示与BEV监督不同的是透视检测损失直接密集地应用于图像特征。我们假设透视监督显式地引导主干网络感知三维场景并提取有用的信息如目标的深度和方位。克服了BEV监督的缺点因此在训练BEV模型时使用现代图像的主干网路是非常必要的。 透视监督和BEV监督的对比透视探测器的监督信号密集且直接指向图像特征而BEV探测器的监督信号稀疏且间接。 下图是BEVformer中采用的是BEV监督 3.3. 透视损失Perspective Loss 正如前一节所分析的透视监督是优化BEV模型的关键。在Bevformer V2中我们通过一个辅助透视损失引入透视监督。具体地说在主干上构建透视3D检测头以检测透视图中的目标对象。我们采用FCOS3D类似的检测头它预测3D包围盒的中心位置、大小、方向和投影中心度。该检测头的检测损失被记为透视损失​, 它作为BEV损失的一个组成用来促进骨干网络的优化。整个模型是以一个总的目标来训练的 3.4. 改进时间编码器Ravamped Temporal Encoder Bevformer使用循环时间自注意力机制来融合历史的BEV特征。但是时间编码器不能充分利用长期的时间信息简单地将循环步长从4步增加到16步并不能获得额外的性能提高。 我们采用简单的扭曲和联结策略重新设计了Bevformer V2的时间编码器。给定在不同帧k处的BEV特征我们首先通过第t帧和第k帧之间的转换矩阵把 双线性变换成。 然后沿通道方向将先前的BEV特征与当前的BEV特征串联起来并利用残差块进行维数约简。为了保持与原始设计相似的计算复杂度我们使用了相同数量的历史BEV特征但增加了采样间隔。除了从长期时间信息中获益之外新的时间编码器还打开了在离线三维检测设置中利用未来BEV特征的可能性。 3.5. 两阶段的BEV检测器Two-stage BEV Detector 虽然联合训练两个检测头进行训练提供了足够的监督但我们从不同的角度分别得到了两组检测结果。我们设计了一种新的结构将两个头集成为两级预测流水线即两级BEV检测器two-stage detector而不是采用BEV头的预测而抛弃透视头的预测或者通过NMS启发式地将两组预测组合。BEV头中的对象解码器一个detr[3]解码器使用一组学习到的embeddings作为对象查询它通过训练来学习目标对象的位置。然而随机初始化的embeddings需要很长时间来学习合适的位置。此外学习对象查询对于所有的图像都是固定的由于对象的分布可能不同因此可能不够准确。为了解决这些问题对透视头的预测进行后处理过滤然后融合到解码器的对象查询中形成一个两阶段的过程。这些混合对象查询提供了高得分概率的候选位置使BEV头在第二阶段更容易捕获目标对象。 混合对象查询的详细信息将在后面描述。应该注意的是第一阶段的建议不一定是来自一个透视检测器例如来自另一个BEV检测器但实验表明只有从透视图的预测才对第二级BEV头有帮助。 3.6. 混合对象查询的解码器Decoder with Hybrid Object Queries 为了将第一阶段的建议融合到第二阶段的对象查询中基于在BEVFormer 中使用的Deformable DETR编码器对BEVFormer v2中使用的BEV 检测头的编码器进行修改。 解码器由层叠交替的自注意层和交叉注意层组成。交叉注意力层是一种deformable的注意力模式它以以下三个元素作为输入。1内容查询content queries产生抽样偏移量和关注权重的查询特征。2参考点Reference points作为每个查询的采样参考在值特征上的2D点。3值特征Value features即要注意的BEV特征。在原来的Bevformer中内容查询是一组学习的嵌入参考点是从一组学习的位置嵌入中用线性层预测的。在Bevformer V2中我们从每个特定的头部获得建议并通过后处理选择其中的一部分。如图3所示将所选提议的BEV平面上的投影框中心作为每幅图像的参考点并与位置嵌入生成的每数据集参考点相结合。每幅图像的参考点直接指示出目标物体在BEV平面上的可能位置使解码器更容易地检测到目标物体。 然而一小部分物体可能由于遮挡而无法被透视头检测到或出现在两个相邻视图的边界处。为了避免丢失这些对象我们还保留了原始的每个数据集的参考点以便通过学习空间先验来捕获它们。 图三BEVformer v2中的BEV头的解码器。第一阶段的提议perspective proposals的投影中心Projected Centers被用作每个图像的参考点Reference Points它们与每个数据集学习的内容查询(Content Queries)和位置嵌入Positional Embeddings结合作为混合对象查询。 4. 实验结果 4.1. nuScenes 3D物体检测benchmark 表1nuScenes test set的3D物体检测结果 BEVFormer v2在自动驾驶权威数据集nuScenes的3D物体检测任务上超越了已有SOTA方法NDS为63.4mAP为55.6比之前最好的方法分别提升了 2.4和3.1。此外使用InternImage-B作为backbone的模型也超过了之前的方法InternImage-B和V2-99参数量相近但没有使用3D预训练这证明了3D预训练不是必须的。 4.2. 不同视角监督信号的比较 表2不同视角监督信号的组合的对比 • Perspective Only只使用perspective head • BEV Only只使用BEV head • Perspective BEVBEVFormer v2使用perspective head和BEV head组成二阶段检测器 • BEV BEV使用两个BEV head组成二阶段检测器 Perspective Only和BEV Only对比 BEV head使用多个相机视角的信息确定物体位置因此具有更高的mAP。但是perspective head有更低的mATE和mAOE表明它对深度和方向这些3D属性的预测更为准确。 BEV Only和Perspective BEV对比 BEVFormer v2引入perspective supervision取得了NDS 2.5mAP 1.9的较大提升且mATEmAOE和mAVE显著降低模型能更好地感知3D场景获取深度、方向和速度这些属性。 BEV BEV和Perspective BEV对比 对two-stage pipeline进行消融实验表明two-stage本身并不能提升性能性能提升完全来自于perspective supervision的引入。 4.3. Perspective Supervision的泛化性 表3使用不同图像backbone对perspective supervision进行消融实验 Perspective supervision可以泛化到多种不同结构和尺寸的2D图像backbone均能带来NDS约3.0mAP约2.5的显著提升。 4.4. 其他实验表现 表4不同训练时长的对比。Perspective supervision能促进模型的优化加速收敛 表5Perspective head和BEV head的不同选择对比。在perspective head的选择中相比DETR3D head的稀疏预测DD3D head的密集预测能提供更丰富的监督信号因此效果更好 表6BEVFormer v2使用的其他技巧的消融实验包括图像级别的数据增强、输入序列的时间间隔增加、以及使用双向的时序信息。 5. 结论 现有的工作在设计和改进鸟瞰BEV识别模型的检测器方面付出了很大的努力但它们通常停留在特定的预先训练的主干网络上而没有进一步探索。在本文中我们的目标是在 BEV 模型上释放现代图像骨干的全部力量。我们将通用 2D 图像主干网适应 BEV 检测器的优化问题。为了解决这个问题我们通过添加来自额外视角 3D 检测头的辅助损失将视角监督引入到 BEV 模型中。此外我们将两个检测头集成到一个两级检测器中即BEVFormer v2。成熟的透视头提供第一阶段的对象建议这些建议被编码到 BEV 头的对象查询中以进行第二阶段的预测。大量的实验验证了我们提出的方法的有效性和通用性。透视监督引导2D图像主干感知自动驾驶的3D场景帮助BEV模型实现更快的收敛和更好的性能并且适用于广泛的主干。此外我们成功地将大规模骨干网适应了 BEV-Former v2在 nuScenes 数据集上取得了新的 SoTA 结果。我们认为我们的工作为未来的研究人员探索更好的 BEV 模型图像主干设计铺平了道路。 参考文献 BEVFormer v2: Adapting Modern Image Backbones to Bird’s-Eye-View Recognition via Perspective Supervision 论文精读《BEVFormer v2: Adapting Modern Image Backbones to Bird’s-Eye-View Recognition via Perspective 》-CSDN博客 BEVFormer v2让新型图像主干网络在BEV感知中发挥强大能力论文解读 - 脉脉
http://www.dnsts.com.cn/news/125949.html

相关文章:

  • 企业网站设计要点店铺推广渠道有哪些方式
  • 个人网站名字江苏备案网站名称
  • 简述商务网站建设的步骤网站建设的论文参考文献
  • 钓鱼网站怎么搭建网站模板一样侵权吗
  • 怎么做自己的cms导购网站做打鱼网站的代理
  • 金乡网站建设公司宝塔装wordpress
  • 做流量网站怎么做门户设计模板
  • 旅游景点网站建设设计说明网站建设这方面的
  • 国外做的好的电商网站推荐seo站外优化平台
  • 中国采招网天门市网站建设seo
  • 用网站模板做新网站广西网络广播电视台直播
  • 青岛网站开发工资张家港江阴网站制作
  • 佛山顺德做网站网络优化网站建设学习
  • 小说网站开发流程网站开发好后版权归谁
  • 且未县建设局网站佛山营销网站建设制作
  • 木鱼网站建设网站链接做app
  • 广州学习网站建设wordpress站点描述
  • 网站备案密码电商网站是获取流量
  • 网站建设div可拖拽布局县级网站
  • 网站建设需要哪些步骤站长权重
  • 网销工作内容简述抖音优化排名
  • 网站之间的区别营销型网站建设指导原则
  • 沈阳成创网站建设公司seo销售话术开场白
  • 做图有什么网站天津建设信息网
  • 上海市建设工程 安全质量网站全局代理ip
  • 厦门 网站建设公司电话沙特网站后缀
  • 视频网站直播怎么做怎样在百度上注册自己的公司
  • 网站建设与维护题库及答案做企业网站代码那种好
  • 网站根目录权限设置营销型网站的基础建设
  • 松江做移动网站化妆品电子商务网站开发流程描述