当前位置: 首页 > news >正文

小程序跳转到网站网站做多个产品

小程序跳转到网站,网站做多个产品,建设网站公司哪里好,禁止 外链 wordpress论文链接 BEVFormer BEVFormer#xff0c;这是一个将Transformer和时间结构应用于自动驾驶的范式#xff0c;用于从多相机输入中生成鸟瞰#xff08;BEV#xff09;特征利用查询来查找空间/时间#xff0c;并相应地聚合时空信息#xff0c;从而为感知任务提供更强的表示…论文链接 BEVFormer BEVFormer这是一个将Transformer和时间结构应用于自动驾驶的范式用于从多相机输入中生成鸟瞰BEV特征利用查询来查找空间/时间并相应地聚合时空信息从而为感知任务提供更强的表示 0. Abstract BEVFormer通过时空转换器学习统一的BEV表示以支持多个自动驾驶感知任务过预定义的网格状BEV查询与空间和时间空间相互作用以利用空间和时间信息为了聚合空间信息设计了空间交叉注意力每个BEV查询从不同摄像机视图中提取感兴趣区域的空间特征对于时间信息提出了时间自注意力以循环地融合历史BEV信息 1. Abstract 相比于基于激光雷达的对应方法摄像头拥有能够检测远距离物体和识别基于视觉的道路元素例如交通信号灯、停车线的优势基于单目框架和跨摄像头后处理的方法性能和效率较低作为单目框架的替代方案更统一的框架是从多摄像头图像中提取整体表示 鸟瞰图BEV是周围场景的常用表示清楚地呈现了物体的位置和规模BEV 是连接时空空间的理想桥梁利用 BEV 特征循环传递从过去到现在的时间信息与 RNN 异曲同工 BEVFormer 包含三个关键设计 网格状 BEV 查询通过注意力机制灵活地融合空间和时间特征空间交叉注意力模块聚合来自多个维度的空间特征时间自注意力模块用于从历史 BEV 特征中提取时间信息 该模型可以与不同的特定任务头进行端到端 3D 对象检测和地图分割 本文的主要贡献 提出了 BEVFormer**一种时空转换器编码器**可将多摄像机和/或时间戳输入投射到 BEV 表示中。凭借统一的 BEV 特征可以同时支持多个自动驾驶感知任务包括 3D 检测和地图分割设计了可学习的 BEV 查询以及空间交叉注意层和时间自注意层分别从跨摄像机查找空间特征和从历史 BEV 查找时间特征然后将它们聚合成统一的 BEV 特征在多个具有挑战性的基准上评估了所提出的 BEVFormer。始终实现了改进的性能 2. Related Work 2.1 Transformer-based 2D perception DETR 使用一组对象查询直接由交叉注意力解码器生成检测结果但训练时间长Deformable DETR 可变形注意力与局部感兴趣区域交互仅对每个参考点附近的 K 个点进行采样并计算注意力结果效率很高并显着缩短了训练时间 2.2 Camera-based 3D Perception 经典方案 基于 2D 边界框预测 3D 边界框将图像特征转换为 BEV 特征并从自上而下的视图预测 3D 边界框利用深度估计或分类深度分布中的深度信息将图像特征转换为 BEV 特征 **多相机生成 BEV ** 通过逆透视映射 (IPM) 将透视图转换为 BEV根据深度分布生成 BEV 特征通过堆叠来自多个时间戳的BEV特征来考虑时间信息 3. BEVFormer 提出了一种新的基于 Transformer 的 BEV 生成框架它可以通过注意力机制有效聚合来自多视图相机的时空特征和历史 BEV 特征 3.1 Overall Architecture BEVFormer 有 6 个编码器层每个编码器层都遵循 Transformer 的传统结构 除此之外有三种定制设计即 BEV 查询、空间交叉注意力和时间自注意力 BEV 查询网格状的可学习参数旨在通过注意机制从多摄像机视图查询 BEV 空间中的特征 空间交叉注意力和时间自注意力与 BEV 查询一起使用的注意力层用于根据 BEV 查询查找和聚合多摄像机图像中的空间特征以及历史 BEV 中的时间特征 3.2 BEV Queries 预先定义一组网格状的可学习参数 Q ∈ R H × W × C Q ∈ \mathbb{R}^{H×W×C} Q∈RH×W×C 作为 BEVFormer 的查询其中 H、W 是 BEV 平面的空间形状位于 Q 的 p ( x , y ) p (x, y) p(x,y) 处的查询 Q p ∈ R 1 × C Q_p ∈ \mathbb{R}^{1×C} Qp​∈R1×C 负责 BEV 平面中相应的网格单元区域BEV 平面中的每个网格单元对应于现实世界的 s 米大小。默认情况下BEV 功能的中心对应于本车的位置将 BEV 查询 Q 输入到 BEVFormer 之前将可学习的位置嵌入添加到其中 3.3 Spatial Cross-Attention 多摄像头的 3D 感知输入规模大故开发了基于可变形注意力的空间交叉注意力 每个 BEV 查询 Q p Q_p Qp​ 仅与其跨摄像机视图的感兴趣区域交互 首先将 BEV 平面上的每个查询提升为类似柱子的查询从柱子中采样 Nref 3D 参考点然后将这些点投影到 2D 视图。投影的2D点只能落在某些视图上而其他视图不会命中 将点击视图称为 Vhit。将这些 2D 点视为查询 Q p Q_p Qp​ 的参考点并从这些参考点周围的命中视图 Vhit 中采样特征 对采样特征进行加权求和作为空间交叉注意力SCA的输出 S C A ( Q p , F t ) 1 ∣ V h i t ∣ ∑ i ∈ V h i t ∑ j 1 N r e f D e f o r m A t t n ( Q p , P ( p , i , j ) , F t i ) (Eq.2) SCA(Q_p, F_t) \frac{1}{|V_{hit}|} \underset{i∈Vhit}∑ \sum\limits^{N_{ref}}_{j1} DeformAttn(Q_p, \mathcal{P}(p,i,j), F^i_t ) \tag{Eq.2} SCA(Qp​,Ft​)∣Vhit​∣1​i∈Vhit∑​j1∑Nref​​DeformAttn(Qp​,P(p,i,j),Fti​)(Eq.2) 其中 i 索引相机视图j 索引参考点Nref 是每个 BEV 查询的总参考点。 F t i F_t^i Fti​ 是第 i 个摄像机视图的特征。对于每个 BEV 查询 Q p Q_p Qp​我们使用投影函数 P ( p , i , j ) \mathcal{P}(p,i,j) P(p,i,j) 来获取第 i 个视图图像上的第 j 个参考点 对于投影函数 首先计算与位于 Q 的 p ( x , y ) p(x,y) p(x,y) 处的查询 Q p Q_p Qp​ 对应的现实世界位置 ( x ′ , y ′ ) (x,y) (x′,y′) x ′ ( x − W 2 ) × s ; y ′ ( y − H 2 ) × s (Eq.3) x(x-\frac{W}{2})\times s;\ \ \ \ y(y-\frac{H}{2})\times s \ \tag{Eq.3} x′(x−2W​)×s;    y′(y−2H​)×s (Eq.3) HW是BEV查询的空间形状s 是BEV网格的分辨率大小 ( x ′ y ′ ) (xy) (x′y′) 是本车位置为原点的坐标 预先定义了一组锚点高度 { z j ′ } j 1 N r e f \{z_j\}^{N_{ref}}_{j1} {zj′​}j1Nref​​以确保我们能够捕获出现在不同高度的线索。这样对于每个查询 Q p Q_p Qp​我们获得了3D参考点 ( x ′ , y ′ , z j ′ ) j 1 N r e f (x,y,z_j)^{N_{ref}}_{j1} (x′,y′,zj′​)j1Nref​​ 的支柱 P ( p , i , j ) ( x i j , y i j ) , w h e r e z i j ⋅ [ x i j y i j 1 ] T T i ⋅ [ x ′ y ′ z j ′ 1 ] T \begin{align} \mathcal{P}(p,i,j)(x_{ij},y_{ij}), \\ where\ \ z_{ij} \cdot [x_{ij}\ \ y_{ij}\ \ 1]^T T_i\cdot[x\ \ y\ \ z_j\ \ 1]^T \tag{Eq.4} \end{align} P(p,i,j)where  zij​⋅[xij​  yij​  1]T​(xij​,yij​),Ti​⋅[x′  y′  zj′​  1]T​(Eq.4)​ 3.4 Temporal Self-Attention 给定当前时间戳 t t t 处的 BEV 查询 Q Q Q 和时间戳 t − 1 t−1 t−1 处保留的历史 BEV 特征 B t − 1 B_{t−1} Bt−1​ 首先根据自我运动将 B t − 1 B_{t−1} Bt−1​ 与 Q Q Q 对齐以使同一网格处的特征对应于相同的现实世界位置 将对齐的历史 BEV 特征 B t − 1 B_{t−1} Bt−1​ 表示为 B t − 1 ′ B_{t−1} Bt−1′​ 时间自注意力TSA层对特征之间的时间联系进行建模 T S A ( Q p , { Q , B t − 1 ′ } ) ∑ V ∈ { Q , B t − 1 ′ } D e f o r m A t t n ( Q p , p , V ) , TSA(Q_p,\{Q, B_{t−1}\}) \underset{V ∈\{Q,B_{t−1}\}}{\sum} DeformAttn(Q_p,p,V), TSA(Qp​,{Q,Bt−1′​})V∈{Q,Bt−1′​}∑​DeformAttn(Qp​,p,V), Q p Q_p Qp​ 表示位于 p ( x , y ) p (x, y) p(x,y) 处的 BEV 查询时间自注意力中的偏移量 Δ p Δp Δp 是通过 Q Q Q 和 B t − 1 ′ B_{t−1} Bt−1′​ 的串联来预测的对于每个序列的第一个样本时间自注意力将退化为没有时间信息的自注意力用重复的 BEV 查询 { Q , Q } \{Q,Q\} {Q,Q} 替换 BEV 特征 { Q , B t − 1 ′ } \{Q,B_{t−1}\} {Q,Bt−1′​} 时间自注意力可以更有效地建模长时间依赖性 BEVFormer 从之前的 BEV 特征中提取时间信息而不是多个堆叠 BEV 特征因此需要更少的计算成本并受到更少的干扰信息 3.5 Applications of BEV Features 3D 目标检测 基于 2D 检测器 Deformable DETR 设计了一个端到端 3D 检测头。修改包括使用单尺度 BEV 特征 Bt 作为解码器的输入预测 3D 边界框和速度而不是 2D 边界框以及仅使用 L1 损失来监督 3D 边界框回归借助检测头模型可以端到端预测 3D 边界框和速度无需 NMS 后处理 地图分割 基于 2D 分割方法 Panoptic SegFormer 设计了一个地图分割头基于BEV的地图分割与常见的语义分割基本相同 3.6 Implementation Details 训练阶段 对于时间戳 t 的每个样本从过去 2 秒的连续序列中随机采样另外 3 个样本将这四个样本的时间戳记为 t−3、t−2、t−1 和 t循环生成 BEV 特征 { B t − 3 , B t − 2 , B t − 1 } \{B_{t−3}, B_{t−2}, B_{t−1}\} {Bt−3​,Bt−2​,Bt−1​}并且此阶段不需要梯度对于时间戳 t−3 的第一个样本没有先前的 BEV 特征并且时间自注意力退化为自注意力模型基于多相机输入和先验BEV特征 B t − 1 B_{t−1} Bt−1​ 生成BEV特征 B t B_t Bt​使得 B t B_t Bt​包含跨越四个样本的时间和空间线索最后我们将 BEV 特征 B t B_t Bt​ 输入到检测和分割头中并计算相应的损失函数 推理阶段 在推理阶段按时间顺序评估视频序列的每一帧前一个时间戳的BEV特征被保存并用于下一个时间戳 4. Experiments 数据集 nuScenes DatasetWaymo Open Dataset 4.1 Experimental Settings 两种主干从 FCOS3D 检查点初始化的 ResNet101-DCN 和从 DD3D 检查点初始化的VoVnet-99利用 FPN 的输出多尺度特征大小为 1/16、1/32、1/64维度为 C 256对于nuScenes上的实验BEV查询的默认大小为200×200X轴和Y轴的感知范围为[−51.2m51.2m]BEV网格的分辨率s的大小为0.512m用 24 个时期训练模型学习率为 2 × 1 0 − 4 2×10^{−4} 2×10−4对于 Waymo 上的实验BEV查询的默认空间形状为300×220X轴的感知范围为[−35.0m75.0m] Y 轴为 [−75.0m, 75.0m]。每个网格的分辨率 s 的大小为0.5m Baseline 为了消除任务头的影响并公平地比较其他 BEV 生成方法使用 VPN 和 Lift-Splat 来替换我们的 BEVFormer 并保持任务头和其他设置相同通过将时间自注意力调整为普通自注意力而不使用历史 BEV 特征将 BEVFormer 改编成名为 BEVFormer-S 的静态模型 4.2 3D Object Detection Results 4.3 Multi-tasks Perception Results 4.4 Ablation Study 空间交叉注意力的有效性 在可比较的模型规模下可变形注意力明显优于其他注意力机制。全局注意力消耗过多的GPU内存点交互的感受野有限。稀疏注意力可以实现更好的性能因为它与先验确定的感兴趣区域交互平衡感受野和 GPU 消耗 时间自注意力的有效性 时间信息的作用主要有以下几个方面 时间信息的引入极大地有利于速度估计的准确性利用时间信息预测物体的位置和方向更加准确由于时间信息包含过去的对象线索我们在严重遮挡的对象上获得了更高的召回率 模型规模和延迟 从三个方面消除了 BEVFormer 的尺度包括是否使用多尺度视图特征、BEV 查询的形状和层数以验证性能和推理延迟之间的权衡 4.5 Visualization Results 5. Discussion and Conclusion 提出了 BEVFormer 从多摄像头输入生成鸟瞰图特征。 BEVFormer 可以有效聚合空间和时间信息并生成强大的 BEV 功能同时支持 3D 检测和地图分割任务。 局限性基于相机的方法在效果和效率上与基于激光雷达的方法仍然存在一定的差距。从 2D 信息准确推断 3D 位置仍然是基于相机的方法的长期挑战 更广泛的影响BEVFormer 所展示的优势例如更准确的速度估计和对低可见度物体的更高召回率对于构建更好、更安全的自动驾驶系统及其他系统至关重要
http://www.dnsts.com.cn/news/263374.html

相关文章:

  • 网站做的好的公司自己给网站做优化怎么做
  • 百度收录左侧带图片的网站校园网站建设管理
  • 建网站需要什么手续网站导航建设注意
  • 网站建设基地建设企业网站服务器
  • 阳泉网站建设网站企业做网站用dedeCMS免费吗
  • 在哪里购买虚拟空间建设网站万网站长
  • flash网站制作下载sql网站的发布流程
  • 兴义之窗网站怎么做企业免费自助建站平台
  • 设计参考图哪个网站好wordpress 小程序开发
  • 淄博网站设计方案广西河池住房和城乡建设厅网站
  • .design 域名的网站网站设计制作价钱低
  • 天涯网站怎么做外链网站建设运维合同
  • 印刷网站开发策划书毕设网站建设
  • 深一网站建设招聘河北唐山网站建设
  • 正规网站建设代理无锡百姓网推广代理商
  • 南京500元做网站热门网站建设加盟平台
  • 山东跨境电商建站公司wordpress 建站 linux
  • c 网站开发案例详解光盘铝合金做网站
  • 做自适应网站对设计稿的要求易点科技
  • 武宣县住房和城乡建设局网站有哪些网站可以做推广包包
  • wordpress做外贸站wordpress默认主题修改
  • 安亭网站建设电子科技企业网站建设
  • 国外h5制作网站模板蜂鸟摄影网官网
  • 网站开发任务书wordpress添加留言版
  • 宝安网站建设多少钱郑州百度seo网站优
  • 徐州城乡建设局网站网站层次
  • 广州做手机网站信息做的网站 只显示代码
  • 网站建设中图片门户网下载
  • 中国空间站的意义网站结构框架图怎么做
  • 做华为网站的还有哪些功能华为云建网站