网站建设维护知识,自动建站网站系统域名,开发 网站 费用,周口市住房和城乡建设局网站VoxelNeXt:Fully Sparse VoxelNet for 3D Object Detection and Tracking
目前自动驾驶场景的3D检测框架大多依赖于dense head#xff0c;而3D点云数据本身是稀疏的#xff0c;这无疑是一种低效和浪费计算量的做法。我们提出了一种纯稀疏的3D 检测框架 VoxelNeXt。该方法可以…VoxelNeXt:Fully Sparse VoxelNet for 3D Object Detection and Tracking
目前自动驾驶场景的3D检测框架大多依赖于dense head而3D点云数据本身是稀疏的这无疑是一种低效和浪费计算量的做法。我们提出了一种纯稀疏的3D 检测框架 VoxelNeXt。该方法可以直接从sparse CNNs 的 backbone网络输出的预测 sparse voxel 特征来预测3D物体无需借助转换成anchor, center, voting等中间状态的媒介。该方法在取得检测速度优势的同时还能很好地帮助多目标跟踪。VoxelNeXt在nuScenes LIDAR 多目标跟踪榜单上排名第一。
1.概述
在本文中我们提出了VoxelNeXt。这是一个简单、高效且无需后期处理的3D对象检测器。我们设计的核心是体素到对象方案其根据体素特征直接预测3D对象一个强大的完全稀疏的卷积网络。关键的优点是我们的方法可以去掉锚代理稀疏到密集转换、区域建议网络和其他复杂组件。 由于我们的体素到对象方案避免了密集的特征图所以网络可以高效推理。它只预测稀疏和必要的位置如表1所示与CenterPoint[57]相比。这种表示也使得VoxelNeXt可以很容易地扩展到使用离线跟踪器的3D跟踪。先前的工作[57]只跟踪预测的物体中心这可能涉及对其位置的预测偏差。在VoxelNeXt中查询体素用于框预测的体素也可以被跟踪以进行关联。
最近FSD[16]利用了完全稀疏的框架。在VoteNet[37]的推动下它投票支持对象中心并采用迭代细化。由于3D稀疏数据通常分散在物体表面因此这种投票过程不可避免地会引入偏差或误差。因此需要诸如迭代群校正之类的细化来确保最终的准确性。该系统因其对客体中心的强烈信念而变得复杂。FSD[16]在大范围表现不错但其效率不如我们的如图所示。 2.具体方法
如果不使用2D检测头直接用voxel稀疏会有什么问题呢
稀疏探测器[164647]的方法避免了密集的探测头而是引入了其他复杂的管道。RSN[47]对距离图像执行前景分割然后检测剩余图像上的3D对象稀疏数据。SWFormer[46]提出了一种具有精细窗口分割和具有特征金字塔的多个头的稀疏变换器。受VoteNet[37]的启发FSD[16]使用点聚类和组校正来解决中心特征缺失的问题。
这些检测器进行稀疏预测但以不同的方式使检测管道复杂化。在我们的工作中这个中心缺失的问题也可以通过具有大感受野的稀疏网络简单地跳过。我们对常用的稀疏神经网络进行最小的调整以实现完全稀疏的检测器。
稀疏神经网络因其效率而成为3D深度学习[10112341]中的大型骨干网络。人们普遍认为它的表现能力对于预测是有限的。与所有这些解决方案相反我们证明在没有任何其他复杂设计的情况下通过额外的下采样层可以简单地解决感受野瓶颈不足的问题。
点云或体素分布不规则通常分散在3D对象的表面而不是中心或内部。这促使我们沿着一个新的方向进行研究直接基于体素而不是手工制作的锚或中心来预测3D盒子。
2.1.稀疏CNN骨干网适配
具有足够感受野的强特征表示是确保对稀疏体素特征进行直接和正确预测的必要条件。尽管普通稀疏CNN骨干网络已被广泛用于3D对象检测器[124157]但最近的工作表明了其弱点并提出了各种方法来增强稀疏骨干例如使用精心设计的卷积[7]、large kernels [8], and transformers [25, 26, 35]。
与所有这些方法不同我们尽可能少地进行修改来实现这一点只使用额外的下采样层。默认情况下简单稀疏的CNN骨干网络有4个阶段其特征步长为{1248}。我们将输出稀疏特征分别命名为{F1F2F3F4}。此设置无法进行直接预测尤其是对于大型对象。为了增强其能力我们简单地包括两个额外的下采样层以获得{F5F6}的步长为{1632}的特征。
这种微小的变化直接对扩大感受野产生了显著的影响。我们将最后三个阶段{F4F5F6}到Fc的稀疏特征进行组合。它们的空间分辨率都与F4对齐。对于阶段iFi是一组单独的特征fp。p∈Pi是三维空间中的一个位置坐标为xpypzp。该过程如图4所示。值得注意的是这种简单的稀疏串联不需要其他参数化层。稀疏特征Fc和它们的位置Pc被获得为 图4 VoxelNeXt框架的详细结构。图中带圆圈的数字对应于第3.1节和第3.2节中的段落。1-额外向下取样。2-稀疏高度压缩。3-体素选择。4-框回归。为了简单起见我们在这里省略了F1、F2和F3的生成。
在附加下采样层的情况下有效感受野ERF更大预测框更准确。它足够有效并且几乎不需要额外的计算如表2所示。因此我们使用这种简单的设计作为骨干网络。
稀疏高度压缩 3D对象检测器通过将稀疏特征转换为密集特征然后将深度沿z轴组合为通道维度将3D体素特征压缩为密集的2D图。这些操作需要占用占用内存和计算。
在VoxelNet中我们发现2D稀疏特征对于预测是有效的。VoxelNeXt中的高度压缩是完全稀疏的。我们只需将所有体素放在地面上并在相同的位置对特征进行累加。它的成本不超过1毫秒。我们发现对压缩的2D稀疏特征的预测成本低于使用3D稀疏特征的成本如表5所示。压缩的稀疏特征F’c及其位置P’c如下所示 空间体素修剪 我们的网络完全基于体素。3D场景通常包含大量冗余的背景点并且对预测几乎没有好处。我们沿着下采样层逐渐修剪不相关的体素。根据SPS Conv[32]我们抑制了具有小特征量值的体素的膨胀如图6所示。 将抑制比设为0.5我们仅对特征幅度|fp|在通道维度上平均位于所有体素的上半部分的体素进行扩张。体素修剪在很大程度上节省了计算而不会影响性能如表3所示。 2.2. 稀疏检测头
体素选择 图4显示了VoxelNeXt模型的详细框架。我们不依赖于密集特征图M而是直接基于3D CNN骨干网络V∈R的稀疏输出来预测对象 N×F。我们首先预测K类体素的分数s∈R N×K。在训练过程中我们将离每个注释边界框中心最近的体素指定为正样本。我们使用焦点损失[31]进行监督。我们注意到在推理查询过程中体素通常不在对象中心。它们甚至不一定在边界框内例如图中的行人。我们在表7中统计了nuScenes验证集上查询体素的分布。 在推理过程中我们通过使用稀疏最大池来避免NMS后处理因为特性足够稀疏。与子流形稀疏卷积[19]类似它只对非空位置进行运算。这是基于预测的分数s并针对每个类别单独进行。
我们采用稀疏最大池来选择具有空间局部最大值的体素。去除的体素将被排除在框预测中这节省了头部的计算。 框回归 从正的或选定的稀疏体素特征v∈Rn×F直接回归边界框。根据CenterPoint[57]中的协议我们回归位置∆x∆y∈R2高度h∈R3D尺寸s∈R3旋转角度sinαcosα∈R2 对于nuScenes数据集或跟踪我们通过任务定义回归速度v∈R2。这些预测是在训练期间在L1损失函数下监督的。对于Waymo数据集我们还预测了IoU并在IoU损失的情况下进行训练以提高性能[22]。我们简单地使用核大小为3的全连通层或3×3子流形稀疏卷积层进行预测而不需要其他复杂的设计。我们发现3×3稀疏卷积比全连接层产生更好的结果负担有限如表6所示 2.3 3D跟踪 我们的框架自然扩展到了3D跟踪。CenterPoint[57]通过二维速度v∈R2跟踪预测的物体中心该速度也受到L1损失的监督。我们将此设计扩展到VoxelNeXt中。我们的解决方案是使用体素关联来包括更多与查询体素位置匹配的轨迹。
如图8所示我们记录了用于预测每个框的体素的位置。与中心关联类似我们计算L2距离以进行匹配。通过将查询位置的索引回溯到原始输入体素而不是stride-8位置来选择查询位置。被跟踪的体素存在于输入数据中其比预测的中心具有更小的偏差。此外相邻帧之间的查询体素共享与框相似的相对位置。我们的经验表明体素关联改善了表11中的跟踪。 3.总结及实验结果
文章相对centerpoint 有较大提升思想源于centerpoint,创新点在于直接使用真值中心最近对应的voxel作为有无目标的回归而centerpont中还是基于2d特征的heatmap。跟踪时也使用原始查询voxel表现突出。具体指标如下 原论文https://arxiv.org/pdf/2303.11301.pdf