哪个网站可以做电子档的邀请函,网站seo主要是做什么的,51游戏,制作图片在线一种通用的视觉点云预测预训练方法 开卷可扩展自动驾驶#xff08;OpenDriveLab#xff09;
自动驾驶新方向#xff1f;ViDAR#xff1a;开卷可扩展自动驾驶#xff08;OpenDriveLab#xff09;-CSDN博客
创新点
在这项工作中#xff0c;本文探索了专为端到端视觉自动…
一种通用的视觉点云预测预训练方法 开卷可扩展自动驾驶OpenDriveLab
自动驾驶新方向ViDAR开卷可扩展自动驾驶OpenDriveLab-CSDN博客
创新点
在这项工作中本文探索了专为端到端视觉自动驾驶应用量身定制的预训练方法不仅包括感知还包括预测和规划。本文构建了一个新的 pretext tasks ——视觉点云预测见图2以充分利用原始图像-激光雷达序列背后的语义、三维几何和时间动态信息并考虑到可扩展性(being scalable)。它从历史视觉图像中预测未来的点云。
视觉点云预测的主要理念在于对语义、三维结构和时间建模的同时监督。通过迫使模型从历史数据预测未来它监督了场景流和物体运动的提取这对于时间建模和未来估计至关重要。同时它涉及从图像重建点云这监督了多视角几何和语义建模。因此来自视觉点云预测的特征嵌入了几何和时间提示(geometric and temporal hints)的信息这对于同时进行感知、跟踪和规划都是有益的。
为此本文提出了 ViDAR一种用于预训练的通用视觉点云预测方法(a general visual point cloud forecasting approach)见图2。ViDAR 包括三个部分历史编码器History Encoder、潜在渲染操作符Latent Rendering operator和未来解码器Future Decoder。历史编码器是预训练的目标结构。它可以是任何视觉BEV编码器用于将视觉序列嵌入到BEV空间。这些BEV特征被送入潜在渲染操作符。潜在渲染在使 ViDAR 提升下游性能方面发挥着至关重要的作用。它解决了 射线形状BEV特征问题(ray-shaped BEV features issue)建模三维几何潜在空间并连接编码器与解码器。未来解码器是一个自回归 transformer 它利用历史BEV特征迭代地预测任意时间戳的未来点云。