公司网站上的员工风采怎么做,wordpress学习pdf,网站做管理后台需要知道什么,公司宣传片的拍摄文章目录 1. 概述2. 背景介绍3. 方法3.1 整体结构3.2 车道感知查询生成器3.3 动态3D地面位置嵌入3.4 预测头和损失 4. 实验评测4.1 数据集和评估指标4.2 实验设置4.3 主要结果 5. 讨论和总结 1. 概述
3D 车道线检测是自动驾驶中的一个基础但具有挑战性的任务。最近的进展主要依… 文章目录 1. 概述2. 背景介绍3. 方法3.1 整体结构3.2 车道感知查询生成器3.3 动态3D地面位置嵌入3.4 预测头和损失 4. 实验评测4.1 数据集和评估指标4.2 实验设置4.3 主要结果 5. 讨论和总结 1. 概述
3D 车道线检测是自动驾驶中的一个基础但具有挑战性的任务。最近的进展主要依赖于从前视图图像特征和相机参数构建的结构化 3D 代理例如鸟瞰图。然而单目图像中的深度模糊不可避免地导致构建的代理特征图与原始图像之间的错位这对准确的车道线检测提出了巨大挑战。为了解决上述问题我们提出了一种新的 LATR 模型这是一种端到端的 3D 车道检测器使用 3D 感知的前视图特征而不依赖于视图变换表示。具体来说LATR 通过基于查询和键值对的交叉注意力来检测 3D 车道线这些键值对是使用我们的车道感知查询生成器和动态 3D 地面位置嵌入构建的。一方面每个查询是基于 2D 车道感知特征生成的并采用混合嵌入来增强车道信息。另一方面3D 空间信息被注入为从迭代更新的 3D 地面平面中提取的位置嵌入。LATR 在合成 Apollo 数据集和现实的 OpenLane 以及 ONCE-3DLanes 数据集上大幅超越了之前的最新方法例如在 OpenLane 上 F1 分数提高了 11.4。代码将发布在 https://github.com/JMoonr/LATR。
2. 背景介绍
3D车道线检测对于自动驾驶中的各种应用如轨迹规划和车道保持至关重要。尽管基于LiDAR的方法在其他3D感知任务中取得了显著进展最近的3D车道线检测更倾向于使用单目摄像头因为与LiDAR相比单目摄像头具有明显的优势。除了低部署成本外摄像头相比其他传感器提供了更长的感知范围并能生成高分辨率且具有丰富纹理的图像这对于检测细长和跨度大的车道线至关重要。 由于缺乏深度信息从单目图像中检测3D车道线具有挑战性。一个直接的解决方案是基于2D分割结果和每像素深度估计来重建3D车道布局如在SALAD中提出的方法。然而这种方法需要高质量的深度数据进行训练并且严重依赖于估计深度的精度。或者CurveFormer采用多项式从前视图中建模3D车道。尽管它避免了不确定的视图变换但其设计中采用的多项式形式限制了捕捉多样化车道形状的灵活性。相比之下当前主流方法更倾向于使用3D代理表示。这些代理表示是基于前视图图像特征和相机参数构建的不依赖于深度信息。由于车道本质上位于道路上大多数这些方法通过逆透视映射IPM将图像特征投影到鸟瞰图BEV中来构建3D代理。然而IPM严格基于平地假设因此在许多实际驾驶场景中如上坡/下坡和颠簸引入了3D代理与原始图像之间的错位。这种错位加上变形不可避免地阻碍了道路结构的准确估计并危及驾驶安全。尽管通过引入可变形注意力来缓解这一问题的尝试取得了一些进展但错位问题仍未解决。
基于上述观察我们旨在通过直接从前视图定位3D车道线而不使用任何中间3D代理通过车道感知查询来改进3D车道检测。受2D目标检测器DETR的启发我们将车道检测简化为端到端的集合预测问题形成LAne detection TRansformerLATR。LATR使用车道感知查询和动态3D地面位置嵌入从前视图图像中检测3D车道线。我们设计了一种车道表示方案来描述车道查询更好地捕捉3D车道线的特性。此外我们利用车道感知特征为查询提供丰富的语义和空间先验。由于纯前视图特征缺乏对3D空间的感知我们从假设的3D地面中注入3D位置信息到前视图特征中。这个假设的地面初始化为水平网格通过迭代优化以适应地面真实道路。最终车道感知查询通过变压器解码器与3D感知特征进行交互随后通过MLP生成3D车道线预测。
我们的主要贡献如下
我们提出了LATR一种基于Transformer的端到端3D车道检测框架。通过直接从前视图检测3D车道线而不使用任何3D代理表示LATR提供了效率并避免了以前方法中存在的特征错位。我们引入了一种车道感知查询生成器使用动态提取的车道感知特征初始化查询嵌入。此外提出了一种动态位置嵌入用于桥接3D空间和2D图像该嵌入来源于在监督下迭代更新的3D地面。我们在OpenLane、Apollo和ONCE-3DLanes的基准数据集上进行了详细实验。我们提出的LATR在这些数据集上显著超越了之前的最先进方法在OpenLane上提高了11.4在Apollo上提高了4.3在ONCE-3DLanes上提高了6.26以F1分数计算。
3. 方法
给定一个输入图像 I ∈ R 3 × H × W I \in \mathbb{R}^{3 \times H \times W} I∈R3×H×W3D车道线检测的目标是预测图像中的车道线的3D位置。车道线由一组3D点表示记为 Y { L i ∣ i ∈ 1 , . . . , N } Y \{L_i | i \in 1, ..., N\} Y{Li∣i∈1,...,N}其中 N N N 是图像中的车道线数量 L i L_i Li 表示第 i i i 条车道线。每条车道线 L i ( P i , C i ) L_i (P_i, C_i) Li(Pi,Ci) 由一组点 P i { ( x j i , y j i , z j i ) } j 1 M P_i \{(x_j^i, y_j^i, z_j^i)\}_{j1}^M Pi{(xji,yji,zji)}j1M 构成其中 M M M 是输出点集的预定基数 C i C_i Ci 表示类别。通常 y ∗ y_{\ast} y∗ 被设为预定义的纵向坐标 Y r e f { y i } i 1 M Y_{ref} \{y_i\}_{i1}^M Yref{yi}i1M \cite{7, 8, 3}。
3.1 整体结构
LATR的总体架构如图2所示。首先我们使用一个2D骨干网络从输入图像中提取特征图 X ∈ R C × H × W X \in \mathbb{R}^{C \times H \times W} X∈RC×H×W。之后我们使用车道感知查询生成器生成车道感知查询 Q ∈ R ( N × M ) × C Q \in \mathbb{R}^{(N \times M) \times C} Q∈R(N×M)×C其中 N N N 表示车道线数量每条车道线由 M M M 个点描述。这里 ( N × M ) (N \times M) (N×M) 表示相应维度上的展平通道。随后车道感知查询 Q Q Q 通过可变形注意力 \cite{57} 与特征图 X X X 进行积极互动。在不构建任何错位的3D代理的情况下我们提出了动态3D地面位置嵌入PE生成器以在可变形注意力过程中增强2D特征的3D感知。最后我们在更新的查询上应用预测头以获得最终的车道线预测。每个组件的详细信息将在以下小节中给出。
3.2 车道感知查询生成器
与以往方法中采用固定学习特征作为查询不同 \cite{2, 17, 25, 57}我们提出了一种动态方案来生成车道感知查询嵌入这些查询嵌入提供了从图像特征中提取的有价值的2D车道先验。此外为了使查询在描述车道线时更加灵活并隐式地建模车道线内和车道线间的关系我们采用多种粒度来表示查询嵌入包括车道级和点级。
车道级嵌入捕捉每条车道线的整体结构而点级嵌入则收集位于 y i ∈ Y r e f y_i \in Y_{ref} yi∈Yref 的局部特征如上所述。然后我们将这两个级别结合作为我们的最终查询嵌入。这种混合嵌入方案对查询进行了不同车道的判别性特征编码并通过共享点级嵌入使每个查询能够在特定深度捕捉共享模式。这里的直觉是不同车道在同一深度的点在图像投影过程中将经历统一的缩放因子。此外共享同一条道路会在3D空间中赋予车道线共享属性如相同的海拔高度。该模块的内部结构如图2部分(b)所示。 车道级嵌入从图像特征图 X ∈ R C × H × W X \in \mathbb{R}^{C \times H \times W} X∈RC×H×W 编码 N N N 个车道实例的特征。具体来说我们利用一个车道感知特征聚合器基于一组实例激活图IAMs A ∈ R N × ( H × W ) A \in \mathbb{R}^{N \times (H \times W)} A∈RN×(H×W) \cite{4} 来收集不同车道的特征。IAMs 动态生成其公式为 其中 F \mathcal{F} F 由几个卷积层实现 σ \sigma σ 是一个Sigmoid函数 [ , ] [ , ] [,] 表示拼接 S S S 是一个表示像素2D空间定位的双通道特征图 \cite{22}。通过IAMs可以通过以下公式获得车道级嵌入 Q l a n e ∈ R N × C Q_{lane} \in \mathbb{R}^{N \times C} Qlane∈RN×C 在训练期间我们在 Q l a n e Q_{lane} Qlane 顶部添加一个辅助分割头 \cite{4}以预测2D车道实例掩码这些掩码由投影的3D注释监督。按照 \cite{4} 的方法我们使用基于Dice的双向匹配为 N N N 个实例掩码分配真值标签。我们还使用相同的匹配结果为我们的最终车道线预测分配标签。更多细节请参考我们的补充材料。 点级嵌入表示车道线上点之间的关系。与从图像特征中提取不同我们将其表示为一组可学习的权重 Q p o i n t ∈ R M × C Q_{point} \in \mathbb{R}^{M \times C} Qpoint∈RM×C其中每个 q p o i n t i ∈ R 1 × C q_{point}^i \in \mathbb{R}^{1 \times C} qpointi∈R1×C 对应于预定义的 Y r e f Y_{ref} Yref 中的一个 y i y_i yi。这些嵌入将在训练期间学习。 车道感知查询嵌入 Q ∈ R ( N × M ) × C Q \in \mathbb{R}^{(N \times M) \times C} Q∈R(N×M)×C 可以通过以下公式获得 其中 ⊕ \oplus ⊕ 表示广播求和。广播操作使模型能够区分不同实例并基于车道级嵌入对点进行分组。注意共享点级嵌入可以帮助模型在不同车道的点之间建模相对关系和共同特征而不引入几何先验如点距离约束和复杂的监督如以往方法 \cite{14} 所做的。
3.3 动态3D地面位置嵌入
如第2.2节所述现有方法主要使用替代3D空间来估计3D车道线位置 \cite{3, 8, 7, 5} 或隐式地强制模型学习3D位置 \cite{1}。与此不同我们提出利用所有车道线在真实世界中都位于地面上的先验构建一个3D平面来模拟地面。尽管已有几种尝试利用地面先验来促进3D目标检测但有些方法做出了强假设如固定地面 \cite{27}而另一些方法引入了额外的预测任务例如密集深度估计 \cite{46, 39, 35}、地平线检测和接触点检测 \cite{50}。然而预测这些额外任务由于其高自由度DOF而提出了显著挑战并且由于累积误差不准确的预测不可避免地会破坏性能。在本文中我们通过将平面限制为仅两个DOF来解决这个问题。具体来说我们将平面编码为每个可变形注意模块中关键的位置嵌入。如下所述我们将深入探讨如何生成3D地面位置嵌入并更新假设平面以仅通过3D车道线注释动态接近真实地面。
我们首先构建一个由 P P P 个点组成的3D平面 P ∈ R P × 3 P \in \mathbb{R}^{P \times 3} P∈RP×3表示为3D网格 P { ( x i , y i , z i ) ∣ i ∈ 1 , . . . , P } P \{(x_i, y_i, z_i)|i \in 1, ..., P\} P{(xi,yi,zi)∣i∈1,...,P}并使用相机参数 T T T 将所有点投影到2D图像上 我们将网格初始化为 z z z 经验上设为1.5的水平面。基于公式 (\ref{equ:project})我们将所有投影点散布到一个2D画布 M p ∈ R 3 × H × W M_p \in \mathbb{R}^{3 \times H \times W} Mp∈R3×H×W 上保持每个投影点的3D位置 其中 ( u , v ) (u, v) (u,v) 和 ( x , y , z ) (x, y, z) (x,y,z) 表示公式 (\ref{equ:project}) 中定义的2D和3D坐标。对于那些没有投影点的像素我们简单地将其设为0。之后我们通过MLP获得3D地面位置嵌入 P E ∈ R C × H × W PE \in \mathbb{R}^{C \times H \times W} PE∈RC×H×W。
为了动态更新平面以接近真实地面我们在每个解码器层中使用图像特征和投影画布预测具有两个DOF即 Δ θ x , Δ h \Delta \theta_x, \Delta h Δθx,Δh的残差变换矩阵
其中 [ , ] [ , ] [,] 表示拼接 G \mathcal{G} G 是两个卷积层 X X X 表示来自骨干网络的2D特征 M p M_p Mp 是从公式 (\ref{equ:scatter}) 编码3D位置的投影画布。进一步地变换矩阵可以表示为
然后我们通过以下方式逐层迭代更新平面 其中 P ~ \widetilde{\mathbf{P}} P 是 P P P 的齐次表示 l l l 是解码器层的索引。我们在附录中提供了一个算法来总结这个过程。
为了用两个DOF监督预测的变换矩阵 D D D我们使用相机参数 T T T 通过投影3D车道线注释到图像上。 l x , y , z l_{x,y,z} lx,y,z 是3D车道线注释 l u , v l_{u,v} lu,v 是对应的2D图像上的位置。类似于公式 (\ref{equ:scatter})我们将所有投影车道线散布到 M l M_l Ml 中。因此我们使用投影的3D车道线注释来稀疏地监督投影平面。给定表示从平面投影的所有像素的集合 P P P 和所有投影3D车道线注释的集合 L L L我们的损失可以表示为 我们使用 L p l a n e \mathcal{L}_{plane} Lplane 来监督构建的3D平面的更新使其接近真实地面并获得准确的3D地面位置信息。图3展示了 L p l a n e \mathcal{L}_{plane} Lplane 的效果。
我们遵循标准的基于Transformer的方法 \cite{2, 57}构建了包含 L L L 层解码器。在每一层中我们使用查询来预测3D车道位置 ( x , y , z ) (x, y, z) (x,y,z) 作为3D参考点 r e f 3 D \mathit{ref}_{3D} ref3D 并按照公式 (1) 将每个3D点投影到2D图像上称为 r e f 2 D \mathit{ref}_{2D} ref2D。然后我们使用车道感知查询嵌入 Q ∈ R ( N × M ) × C Q \in \mathbb{R}^{(N\times M)\times C} Q∈R(N×M)×C 和3D地面位置嵌入 P E ∈ R C × ( H × W ) PE \in \mathbb{R}^{C\times (H\times W)} PE∈RC×(H×W) 来公式化消息交换过程如下 其中 X ∈ R C × ( H × W ) X \in \mathbb{R}^{C \times (H \times W)} X∈RC×(H×W) 表示提取的图像特征图 l l l 是层索引DeformAttn 是标准的可变形注意模块 \cite{57}。如图2所示我们还估计了我们构建的平面的残差变换矩阵如第3.3节所述并迭代调整其位置类似于参考点。通过这种迭代细化机制LATR可以逐步更新其关于3D地面的知识并提高其本地化能力。
3.4 预测头和损失
我们在查询顶部应用一个预测头以生成最终预测。对于3D位置估计我们使用MLP可以表示为 其中 Δ x , Δ z ∈ R N × M × 1 \Delta x, \Delta z \in \mathbb{R}^{N \times M \times 1} Δx,Δz∈RN×M×1 表示相对于最后一个解码器层中的相应参考点第3.4节的偏移。 v ∈ R N × M × 1 v \in \mathbb{R}^{N \times M \times 1} v∈RN×M×1 表示每个预测车道点的可见性这表明投影点在图像中是否有效。与预定义的纵向坐标 Y r e f ∈ R M × 1 Y_{ref} \in \mathbb{R}^{M \times 1} Yref∈RM×1 一起我们获得 N N N 个点集作为 r e f 3 D \mathit{ref}_{3D} ref3D。对于车道类别我们采用沿点维度的最大池化然后是每个实例的MLP公式如下 其中 C ∈ R N × K C \in \mathbb{R}^{N \times K} C∈RN×K 表示类别对数 K K K 是可能的类别数量。分类为“背景”的车道将在我们的最终预测中被丢弃。这里我们应用与第3.2节中辅助分割相同的二分匹配结果来分配3D车道标签。此策略确保每个查询的一致2D分割和3D车道检测监督。
给定车道查询的匹配真值标签我们计算每个匹配对的相应损失。具体来说我们的总损失由三部分组成实例分割辅助损失 L s e g L_{seg} Lseg第3.2节、3D地面感知平面更新损失 L p l a n e L_{plane} Lplane第3.3节和3D车道预测损失 L l a n e L_{lane} Llane。公式如下
4. 实验评测
我们在三个3D车道基准数据集上评估了我们的方法OpenLane \cite{3}Apollo \cite{8} 和 ONCE-3DLanes \cite{49}。
4.1 数据集和评估指标
\paragraph{OpenLane \cite{3}} 是一个全面的大规模3D车道检测基准基于Waymo数据集 \cite{40} 构建。该数据集由1000段视频组成包括在各种天气、地形和亮度条件下以1280×1920分辨率捕获的20万帧。OpenLane包含88万条车道注释分布在14个类别中为3D车道检测算法提供了一个真实且多样的挑战集合。
\paragraph{Apollo Synthetic \cite{8}} 使用游戏引擎生成。它包含超过1万张图片涵盖三个不同的场景1平衡场景2罕见场景3具有视觉变化的场景。数据集包括多样化的地形结构如高速公路、城市和住宅区以及各种照明条件。
\paragraph{ONCE-3DLanes \cite{49}} 是一个真实世界的3D车道数据集基于ONCE数据集 \cite{32} 构建。它包含21.1万张图片涵盖不同的位置、光照条件、天气条件和坡度场景。值得注意的是ONCE-3DLanes中没有提供相机外参。
\paragraph{评估指标} 我们遵循官方评估指标对上述数据集中的模型进行评估。评估被公式化为基于最小成本流的匹配问题其中车道匹配成本通过对预定义的 y y y 上的逐点距离的平方和开平方得到。若预测车道的至少75%的点与真实点的逐点距离小于1.5米的预定义阈值则视为匹配 \cite{8, 3}。误差在近距离[0, 40]m和远距离[40, 100]m沿前进方向测量。此外我们使用平均精度AP指标来评估Apollo Synthetic数据集上的性能 \cite{8}。
4.2 实验设置
\paragraph{实现细节} 我们使用720×960的输入形状并采用ResNet-50 \cite{9} 作为骨干网络从三个比例上提取特征图空间缩减比率分别为 1 8 \frac{1}{8} 81 1 16 \frac{1}{16} 161 和 1 32 \frac{1}{32} 321。之后我们利用FPN \cite{18} 生成多尺度特征构建一个四层特征金字塔。具体来说我们应用膨胀卷积将小特征图上采样到最大的比例即 1 8 \frac{1}{8} 81并聚合所有特征作为解码器的输入。对于解码器我们采用具有4个注意头、8个样本点和256维嵌入的可变形注意力 \cite{57}。与目标检测中的常见设置 \cite{52} 一致我们在LATR中使用六层解码器作为默认版本并使用两层设计作为轻量版本LATR-Lite。
\paragraph{训练} 我们所有的实验都使用带有0.01权重衰减的AdamW优化器训练。学习率设置为 2 × 1 0 − 4 2 \times 10^{-4} 2×10−4 并使用余弦退火调度器。我们使用32的批量大小并在A100 GPU上训练模型。我们在OpenLane和ONCE-3DLanes数据集上训练24个周期在Apollo数据集上训练100个周期。
4.3 主要结果
我们在OpenLane验证集上的主要结果如表1所示。可以观察到几个关键趋势1LATR在所有先前方法中有显著超越。相比于之前的最新方法Persformer \cite{3}在F1得分上提升了11.4在类别准确性上提升了2.5。2在近距离和远距离内LATR在X和Z方向的误差均有显著减少。具体来说在近距离/远距离内X和Z方向的误差分别减少了0.100m/0.066m和0.037m/0.037m。3尽管LATR-Lite仅有两个解码器层它仍然取得了与LATR相当的结果。4虽然PersformerPersformer-Res50通过使用与LATR相同的骨干网络和输入形状将F1从50.5提高到53.0但它仍显著落后于LATR。
除了OpenLane的主要结果外我们还在OpenLane验证集中的各种场景下进行了全面的实验。如表2所示我们提出的LATR在六个具有挑战性的场景中显著超越了最新的方法。具体来说我们观察到我们的模型在复杂场景如曲线和合并/分离下的车道检测更准确F1分别提升了11.6和10.8这得益于我们混合车道查询嵌入的设计。此外我们的模型在上下坡场景中的表现也有显著提升F1提升了10.0这表明我们的动态3D地面设计使模型能够更好地感知道路。这些发现证明了我们提出的方法在处理多样驾驶场景中的有效性。在图4中我们展示了LATR和Persformer \cite{3} 的定性比较其中我们的方法在几个具有挑战性的场景中表现出更准确的预测。然而我们也观察到在具有挑战性的光照条件、极端天气和夜间情况下相比于其他场景改进相对较小分别为7.4和6.3。这可能归因于视觉中心方法的内在限制其重度依赖于视觉线索进行感知。
表3总结了我们在Apollo数据集上的实验结果。我们在三个不同的场景中评估了我们的方法并按照文献 \cite{8} 研究了F1得分、AP和误差。尽管性能接近饱和我们的LATR在所有场景和指标上表现出优越性。值得注意的是我们的设计在视觉变化场景下显著提升了4.3个点的F1和3.6个点的AP表明了我们动态地面设计的有效性。此外我们观察到我们的模型在使用两层和六层解码器时都取得了相当的结果。
我们在表4中展示了ONCE-3DLanes \cite{49} 数据集上的实验结果其中我们采用了与 \cite{3} 类似的相机设置。尽管相机参数不准确我们的方法在该数据集上显著超越了现有的基准。与PersFormer相比LATR在F1得分上提高了6.26并在 τ C D 0.3 \tau_{CD}0.3 τCD0.3 \cite{49} 和prob0.5的标准下将CD误差减少了0.022m。这一结果展示了我们LATR在不同数据集上的有效性。总体而言这些在现实和合成数据集上的实验展示了我们提出方法的泛化性和鲁棒性表明其在现实场景中应用的潜力。
我们在OpenLane-300数据集上进行了详尽的分析以验证我们在LATR中的设计选择的有效性按照文献 \cite{3} 的方法。关于模型复杂性和额外消融研究包括解码器层和输入尺寸变化的更多细节在附录中提供。
表5中的第一行和第三行显示了使用可学习权重替换车道级嵌入的结果。使用可学习嵌入不含图像特征的先验知识的性能远低于其车道感知对照F1得分分别为61.5对70.4和45.5对67.9。此外无论车道级嵌入是如何获得的当从LATR中移除动态3D地面PE时性能均有显著下降。可学习权重替换车道级嵌入时这一差距更为显著61.5→45.5。总体而言表5中的每个组件单独应用时均显著提高了相对于基线的性能。采用这两种设计进一步提升了性能并实现了最佳结果。 在LATR中每个查询都通过点级嵌入得到增强对应于最终车道预测中的单个点。属于同一车道级嵌入的每个M点被分组在一起以形成完整的车道。在这部分中我们探索了另一种选择使用车道级嵌入 Q l a n e ∈ R N × C Q_{lane} \in \mathbb{R}^{N \times C} Qlane∈RN×C 作为最终的查询嵌入。与点级查询方法不同这种设置需要为每个车道查询预测M个不同的点。如表6所示与我们提出的设置相比使用纯车道级查询会导致明显的性能下降例如F1从70.4降至66.5。
为了评估我们动态3D地面位置嵌入的有效性我们与几种替代方案进行了比较。具体来说我们探索了使用固定截锥体 \cite{25} 和固定地面平面将3D位置分配给图像像素的方法以及我们提出的采用迭代更新的地面平面的方法。如表7所示将3D位置信息引入图像像素中提升了所有评估方法的性能。正如预期的那样通过截锥体生成3D位置的结果比使用平面差这是合理的因为车道存在于地面上。因此采用截锥体引入了大量存在于空中的点这些地方不存在车道。此外表7显示使用动态更新的平面优于固定平面证明了我们设计选择的有效性。
5. 讨论和总结
虽然我们的模型在三个公共数据集上显著提升了性能甚至超过了多模态方法 \cite{30}但它确实遇到了一些失败案例。作为一种视觉中心方法LATR容易受到关键视觉线索例如眩光或模糊、黑暗中不可见的车道或严重阴影的丧失影响这可以在表2中观察到。在这种具有挑战性的情况下结合LiDAR中的丰富3D几何信息可能会提供支持并有望为3D车道检测提供更鲁棒的解决方案。探索多模态方法是未来研究的一个开放且有趣的途径。
在这项工作中我们提出了LATR这是一种简单但有效的端到端3D车道检测框架达到了最佳性能。它跳过了代理视图转换直接在前视图特征上执行3D车道检测。我们提出了一种有效的车道感知查询生成器以提供查询信息先验并设计了一种混合嵌入通过聚合车道级和点级特征来增强查询感知能力。此外为了构建2D-3D连接我们设计了一个假设的3D地面以将3D空间信息编码到2D特征中。广泛的实验表明LATR取得了显著的性能。我们相信我们的工作可以惠及社区并激发进一步的研究。