沧州机械类网站建设,合肥品牌seo,wordpress ios7,网站开发需要python 吗原文链接#xff1a;https://arxiv.org/pdf/2312.01696 简介#xff1a;最近#xff0c;在摄像头3D目标检测任务中#xff0c;基于查询的Transformer解码器正在超越传统密集BEV方法。但密集BEV框架有着更好的深度估计和目标定位能力#xff0c;能全面精确地描绘3D场景。本…原文链接https://arxiv.org/pdf/2312.01696 简介最近在摄像头3D目标检测任务中基于查询的Transformer解码器正在超越传统密集BEV方法。但密集BEV框架有着更好的深度估计和目标定位能力能全面精确地描绘3D场景。本文通过引入增强组件来解决现有密集BEV方法的缺点包括条件随机场CRF调制的深度估计模块保证物体级别的一致性带有扩展感受野的长期时间聚合模块以及两阶段目标解码器将透视技术与CRF调制的深度嵌入组合。上述增强带来了现代化密集BEV框架BEVNeXt。实验表明BEVNeXt能超过基于密集BEV的或基于查询的方法在NuScenes数据集上达到SotA性能。 对于目前的密集BEV方法弱于基于查询的方法本文将原因总结如下 2D建模不足。基于稀疏查询的方法证明了2D建模对检测性能的影响。现有的提高2D建模能力的方法包括引入激光雷达监督的深度估计辅助任务但激光雷达分辨率较低会导致不精确的深度感知。时间建模不合适。由于自车与目标运动增大时间融合时的感受野很关键。基于查询的方法可以通过全局注意力提高时间融合时的感受野而密集BEV方法受限于卷积的局部性。提升时的特征失真。基于稀疏查询的方法从2D空间采样图像特征避免了视图变换时带来的特征失真。 0. 概述 本文的BEVNeXt基于LSS框架关键组件有三
BEV生成给定多视图图像 { I i } i 1 6 \{I^i\}_{i1}^6 {Ii}i16主干提取多尺度特征 { F 1 / n i } n 4 , 8 , 16 , 32 \{F^i_{1/n}\}_{n4,8,16,32} {F1/ni}n4,8,16,32并用深度网络预测深度概率 { d i } i 1 6 \{d^i\}_{i1}^6 {di}i16。CRF层利用颜色信息 { I i } i 1 6 \{I^i\}_{i1}^6 {Ii}i16调制 { d i } i 1 6 \{d^i\}_{i1}^6 {di}i16得到物体级别一致的深度概率 { d ~ i } i 1 6 \{\tilde d^i\}_{i1}^6 {d~i}i16。BEV编码器BEV编码器用于融合历史 k k k帧的BEV特征得到统一BEV表达 B ~ \tilde B B~。Res2Fusion满足了聚合过程中充足的感受野需求。检测头基于中心的3D检测头处理BEV编码器的输出 B ~ \tilde B B~解码为3D物体。CRF调制的深度概率 { d ~ i } i 1 6 \{\tilde d^i\}_{i1}^6 {d~i}i16被用于嵌入帮助检测头关注有判别力的2D特征。
1. CRF调制的深度估计
密集BEV方法中深度估计作为2D辅助任务可提高2D建模能力并减小视图变换时的失真。由于深度估计可视为分割任务类别表示特定深度范围本文使用条件随机场CRF增强深度估计质量。CRF调制通过利用色彩平滑性先验保证物体级别的深度一致性。令 { X 1 , ⋯ , X N } \{X_1,\cdots,X_N\} {X1,⋯,XN}表示降采样特征图 F 1 / n i F^i_{1/n} F1/ni中的 N N N个像素 { D 1 , ⋯ , D k } \{D_1,\cdots,D_k\} {D1,⋯,Dk}表示 k k k个离散深度区间。深度网络的目标是为每个像素分配一个深度区间 d { x 1 , ⋯ , x N ∣ x i ∈ { D 1 , ⋯ , D k } } d\{x_1,\cdots,x_N|x_i\in\{D_1,\cdots,D_k\}\} d{x1,⋯,xN∣xi∈{D1,⋯,Dk}}。给定分配 d d d目标是最小化相应的能量代价 E ( d ∣ I ) E(d|I) E(d∣I) E ( d ∣ I ) ∑ i ψ u ( x i ) ∑ i ≠ j ψ p ( x i , x j ) E(d|I)\sum_i\psi_u(x_i)\sum_{i\neq j}\psi_p(x_i,x_j) E(d∣I)i∑ψu(xi)ij∑ψp(xi,xj)
其中 ∑ i ψ u ( x i ) \sum_i\psi_u(x_i) ∑iψu(xi)为一元势测量深度网络初始输出的代价。成对势定义为 ψ p ( x i , x j ) ∑ w w exp ( − ∣ I ˉ i − I ˉ j ∣ 2 2 θ ) ∣ x i − x j ∣ \psi_p(x_i,x_j)\sum_ww\exp(-\frac{|\bar I_i-\bar I_j|^2}{2\theta})|x_i-x_j| ψp(xi,xj)w∑wexp(−2θ∣Iˉi−Iˉj∣2)∣xi−xj∣
其中 I ˉ i \bar I_i Iˉi为相应于降采样特征图像素的图像patch内的平均RGB值 ∣ x i − x j ∣ |x_i-x_j| ∣xi−xj∣为两个深度区间的标签相容性即中心距离。CRF位于深度网络后输出记为 d ~ \tilde d d~。
使用激光雷达点云作为深度监督的方法通常在低分辨率图像特征图上进行深度估计以保证标签覆盖率。实验证明当图像特征图的分辨率增加时CRF调制的性能明显更优。
2. Res2Fusion 时间融合时扩大卷积的感受野会带来额外计算量且容易导致过拟合。本文提出Res2Fusion采用Res2Net中的多尺度卷积块增大感受野如图©所示。给定 k k k帧历史BEV特征 { B t − k 1 , ⋯ , B t } \{B_{t-k1},\cdots,B_t\} {Bt−k1,⋯,Bt}首先将BEV特征分为 g k / w gk/w gk/w组其中 w w w为固定的窗口大小。对每个组分别使用 1 × 1 1\times1 1×1卷积 { K i 1 × 1 } i 1 g \{K_i^{1\times1}\}_{i1}^g {Ki1×1}i1g减小通道维度 B i ′ K i 1 × 1 ( [ B t − ( i 1 ) × w ; ⋯ ; B t − i × w ] ) B_iK_i^{1\times1}([B_{t-(i1)\times w};\cdots;B_{t-i\times w}]) Bi′Ki1×1([Bt−(i1)×w;⋯;Bt−i×w])
其中 [ ⋅ ; ⋅ ] [\cdot;\cdot] [⋅;⋅]为拼接操作。然后使用多尺度卷积 B i ′ ′ { K i 3 × 3 ( B i ′ ) 若 i g K i 3 × 3 ( B i ′ B i 1 ′ ) 若 0 i g B i ′ 若 i 0 B_i\begin{cases}K_i^{3\times3}(B_i) 若ig\\ K_i^{3\times3}(B_iB_{i1})若0ig\\ B_i若i0\end{cases} Bi′′⎩ ⎨ ⎧Ki3×3(Bi′)Ki3×3(Bi′Bi1′)Bi′若ig若0ig若i0
这允许模型跳过跨历史BEV的自车运动变换从而避免运动不对齐问题。最后Res2Fusion的输出为 B ~ K f i n a l 1 × 1 ( [ B g ′ ′ ; ⋯ ; B 0 ′ ′ ] ) \tilde BK^{1\times1}_{final}([B_g;\cdots;B_0]) B~Kfinal1×1([Bg′′;⋯;B0′′])
该输出会通过带步长的层并使用FPN获取多尺度信息。
3. 带透视细化的目标检测器
由于前向投影如LSS会导致特征失真本文提出补偿措施。
使用CenterPoint的方法计算物体热图 H H H并采样特征 B c e n t e r { B ~ x , y ∣ H x , y τ } B^{center}\{\tilde B_{x,y}|H_{x,y}\tau\} Bcenter{B~x,y∣Hx,yτ}其中 τ \tau τ为热图阈值。将 B c e n t e r B^{center} Bcenter通过考虑 7 × 7 7\times 7 7×7邻域拓展到 B r o i B^{roi} Broi。随后 B r o i B^{roi} Broi与可学习查询 { Q x , y } \{Q_{x,y}\} {Qx,y}一起通过空间交叉注意力层进行透视细化 S C A ( B x , y r o i , F 1 / n ) ∑ i 1 N ∑ j 1 N r e f F d ( B x , y r o i Q x , y , P i ( x , y , z j ) , F 1 / n i ) SCA(B_{x,y}^{roi},F_{1/n})\sum_{i1}^N\sum_{j1}^{N_{ref}}\mathcal F_d(B^{roi}_{x,y}Q_{x,y},\mathcal P_i(x,y,z_j),F^i_{1/n}) SCA(Bx,yroi,F1/n)i1∑Nj1∑NrefFd(Bx,yroiQx,y,Pi(x,y,zj),F1/ni)
其中 F d \mathcal F_d Fd为可变形注意力 P i ( x , y , z j ) \mathcal P_i(x,y,z_j) Pi(x,y,zj)为高度在 z j z_j zj处的参考点。为引入深度指导本文为2D特征嵌入深度概率 d ~ \tilde d d~ S C A ( B x , y r o i , F 1 / n ) ∑ i 1 N ∑ j 1 N r e f F d ( B x , y r o i Q x , y , P i ( x , y , z j ) , F 1 / n i M L P ( d ~ i ) ) SCA(B_{x,y}^{roi},F_{1/n})\sum_{i1}^N\sum_{j1}^{N_{ref}}\mathcal F_d(B^{roi}_{x,y}Q_{x,y},\mathcal P_i(x,y,z_j),F^i_{1/n}MLP(\tilde d^i)) SCA(Bx,yroi,F1/n)i1∑Nj1∑NrefFd(Bx,yroiQx,y,Pi(x,y,zj),F1/niMLP(d~i))
最后使用CenterPoint的回归头从 B ~ r o i \tilde B^{roi} B~roi预测物体。