邯郸网站制作公司,生产管理软件定制开发,交通银行网站开发,网站内网页标题对百度排名本文来源公众号“极市平台”#xff0c;仅用于学术分享#xff0c;侵权删#xff0c;干货满满。
原文链接#xff1a;综述#xff1a;一文详解50多种多模态图像融合方法
0 极市导读
本工作总结了50篇论文中Lidar和camera的多模态融合的一些概念方法。笔者结合原文以及自…本文来源公众号“极市平台”仅用于学术分享侵权删干货满满。
原文链接综述一文详解50多种多模态图像融合方法
0 极市导读
本工作总结了50篇论文中Lidar和camera的多模态融合的一些概念方法。笔者结合原文以及自己的思考和解读希望能给大家够带来关于多模态图像融合的未来一些新思考 文章链接https://arxiv.org/abs/2202.02703
1 说在前面的话
多模态感知融合是自动驾驶的基础任务吸引了许多“磕盐”人员的关注。但是由于原始数据噪声大、信息利用率低以及多模态传感器未对齐等这些原因要想实现一个好的性能也并非易事。所以在这篇调研报告里面总结了50篇论文中Lidar和camera的多模态融合的一些概念方法希望通过我的这波翻译解读能给大家够带来关于多模态图像融合的未来一些新思考。然后这次的分享其实更多是介绍和总结我尽量通过自己理解还有一些经验把内容进行整理和细化这是一版能够作为新手入门也能作为搬砖老手回顾的内容如果大家觉得内容不错的话可以分享给身边的伙伴们
2 为啥需要多模态融合
在复杂的驾驶环境中单一的传感器信息不足以有效的处理场景的变化。比如在极端恶劣天气中大暴雨、沙尘暴能见度较低的情况下此时只依靠camera的所反馈的RGB图像完全没有办法对环境的变化做出反馈。而在普通的道路环境中如红绿灯、色锥等只依靠Lidar的信息也是无法进行有效识别的也需要结合camera所带来的RGB信息才能有效的处理。因此在自动驾驶感知场景的任务中不同模态信息的互补会更加的重要。
3 有什么特征的融合的方法
多模态融合的能用的场景有很多比如2D/3D的目标检测、语义分割还有Tracking任务。在这些任务中重中之中就是模态之间的信息交互融合的工作。从传感器的的信息获取越来越高效精确成本被压缩得越来越低自主驾驶中感知任务中的多模态融合方法得到了快速发展的机遇。所以紧接着来的问题就是我们到底应该怎么做才能使得多模态融合的工作更加的丝滑和高效呢
4 融合的类型
根据50篇论文的统计分析结果大多数方法遵循将其分为早期前融合、特征融合和后融合三大类的传统融合规则。重点关注深度学习模型中融合特征的阶段无论是数据级、特征级还是建议级。首先这种分类法没有明确定义每个级别的特征表示。其次我们一般的方法是对激光雷达和相机的数据信息是开两个分支在模型的处理过程中两个模态的分支始终是保持对称的从而使得得两个模态的信息可以在同一特征等级下进行交互。综上所述传统的分类法可能是直观的但对最近出现的越来越多的多模态融合的内容按照传统的理解合分类方式不足以应付
4.1 两大类和四小类融合方式
最新的融合任务为自主驾驶感知任务提出了一些创新的多模式融合方法。总的来说包括了两大类即强融合和弱融合以及强融合中的四个小类即早期前融合、深度特征融合、后期后融合、不对称融合这个表示两个分支的特征进行相互决策
5 各种任务以及数据集的介绍
一般来说多模态感知融合在自动驾驶环境中的任务包括了经典的目标检测、语义分割、深度估计和深度预测这类的工作品。其实常见的任务也主要也还是语义分割和目标检测。
5.1 目标检测
其实常见的无人驾驶的场景的目标检测有几个类型汽车、行人、自行车、交通灯、交通指示牌、路锥、减速带这些类型的物体。一般来说目标检测使用由参数表示的矩形或长方体来紧密绑定预定义类别的实例例如汽车或行人这需要在定位和分类方面都表现出色。由于缺乏深度通道2D对象检测通常简单地表示为xyhwc而3D对象检测边界框通常会比2D的标注信息多了深度和方向两个维度的信息表示为xyzhwlθc。
5.2 语义分割
除目标检测外语义分割就是自动驾驶感知的另一个山头了。例如我们会检测环境中的背景和前景目标并加以区分使用语义分割了解物体所在的区域以及区域的细节在自动驾驶任务中也是相当重要的。其次一些车道线的检测方法还使用多类语义分割的mask来表示道路上的不同车道。
语义分割的本质是将输入数据的基本成分如像素和三维点聚类到包含特定语义信息的不同区域中去。具体来说语义分割是指给定一组数据例如图像像素DId1d2…dn或激光雷达3D点云DL{d1d2…dn以及一组预定义的候选标签Y{ y1y2y3…yk我们使用模型为每个像素或点DI分配k个语义标签并将其放置在一个区域的任务。其实这里说得有点复杂和晦涩语义分割其实就当成是像像素级别的分类问题就行了就是这么简单
如果大家觉得还是比较抽象的话可以看看下面三幅图像这里面具体交代了不同场景下的的任务2D/3D的目标检测和语义分割任务。 基于多模态传感器融合的自主驾驶感知模型。
6 数据集
自动驾驶几个常见的老朋友Kitti、Waymo、NuScenes这些都是常见的带有3D信息的自动驾驶场景的数据集基本上我们的一些多模态融合的任务也是围绕着这三个数据集进行刷榜的。具体的数据集的组成我这里就不交代了大家可以去网站看看数据集的分布其实要重点留意的是评价指标这个其实非常重要关系道整个优化的方向所以大家要注意一点啦其次了解数据集的时候特别是新手要注意数据的格式因为Lidar的数据与以往的RGB图像的数据是不同的所以要小心设计Lidar的分支保护数据输入。 数据集一览表
7 融合模式
这是本次宵夜讨论的高潮就是关于怎么去融合这两种不同模态类型的数据呢按现在的融合模态的发展模式来说是一共是分为两大类四小类的模式什么是两大类什么是四小类呢我们继续看下去 7.1 Early Fusion
有的伙伴会说直接把数据的格式统一合并起来输入不就行了吗但是现阶段的Early Fusion并不是这么暴力。
Early Fusion一般是激光雷达数据和Image图像进行融合或者是激光雷达数据与Image的特征进行融合两种方式。如下图所展示的情况LiDAR这个分支与Image信息的早期信息交互的过程。这种方式在reflectance, voxelized tensor, front-view/ range-view/ BEV,pseudo-point clouds都可以使用。尽管Image的特征在各个阶段都不同但是都与LiDAR的信息高度相关。所以LiDAR信息Image特征融合也是可以有效进行融合的。因为LiDAR的分支没有经过抽象化的特征提取阶段所以这一阶段的数据仍具有可解释性因此LiDAR的数据表示依然可以进行直观的可视化。 激光雷达前融合
从图像的角度上看严格意义上对数据级别图片的定义只能是包含RGB或Gray等数据。其实这种定义方式缺乏通用性和合理性也比较局限。所以我们格局要大一点数据级别可以不仅仅是图像也可以是特征图。与传统的早期融合定义相比文章将相机数据的定义不仅仅局限在image上也将特征信息纳入其中。有意识的对特征信息进行选择融合得到一个语义连接更加紧密的输入数据之后将这个数据集进行放入网络进行特征提取。
无论是直接将数据类型转化一致然后concat成一体还是LiDAR信息与Image的特征信息进行融合还是说两者先进行特征的语义连接后成为输入这些都是Early Fusion的操作。其实这样的输入一体化操作的好处自然是结构简便、容易部署。通过语义的提前交互也解决了传统早期融合模态之间语义信息交互不充分的问题。所以一定程度上选择Early Fusion也是一个不错的选择。
7.2 Deep-fusion
深度特征融合的方法其实也很常见。如下图 深度特征融合
我们可以很直接清晰的看到LiDAR点图分支和Images分支在经过各自的特征提取器后得到高维度的特征图并通过一系列下游模块对两个分支模态进行融合。与其他的融合方式不同深度融合有时候也会通过级联的方式对高级特征和原始特征进行融合同时利用高级的特征信息和含有丰富物理信息的原始特征。
7.3 Late-fusion
后融合也称为目标对象级别融合表示在每个模态中融合结果的方法。一些后融合方法其实是同时利用了LiDAR点云分支和相机图像分支的输出并通过两种模式的结果进行最终预测。后期融合可以看作是一种利用多模态信息对最终方案进行优化的集成方法。 后融合
7.4 Asymmetry-fusion
除了早融合、深度融合和后融合之外还有一些方法会对不同的分支赋予不同的特权因此我们将融合来自一个分支的对象级信息而来自其他分支的数据级或功能级信息的方法定义为不对称融合。与其他强融合方法看似平等地对待两个分支不同不对称融合方法至少有一个分支占主导地位其他分支只是提供辅助信息来完成最后的任务。下图就是一个经典的例子。与后期融合相比虽然它们提取特征的过程是相似的但不对称融合只有来自一个分支的一个提议而后融合会融合所有的分支信息。 非对称融合
很显然这类型的融合方法也是合理的因为卷积神经网络对摄像机数据具有良好的性能它可以有效的过滤出在点云数据中没有实际语义信息的无用点在融合的时候就可以一定程度上避免噪声点的干扰。不仅如此还有一些作品尝试跳出常规使用激光雷达骨干来指导2D多视角的数据进行融合通过信息的交互指导实现更高的准确度。
7.5 Weak-Fusion
与强融合不同弱融合方法不直接从多模态分支融合数据/特征/对象而是以其他方式操作数据。基于弱融合的方法通常使用基于规则的方法利用一种模式中的数据作为监督信号以指导另一种模式的交互。下图展示了弱融合模式的基本框架。弱融合不同于上述不对称融合融合图像特征的方法它直接将选中的原始LiDAR信息输入到LiDAR主干中过程中不会直接与Image的分支主干进行特征的交互会通过一些弱连接的方式比如loss函数等方式进行最后的信息融合。与之前的强融合的方法比分支的信息交互是最少的但是同时也能够避免在交互过程中彼此的信息不对称带来的信息干扰又或者是避免了因为单一分支的质量不过关而影响整理整体的融合推理。 弱融合
7.6 Other-Fusion
有些工作不能简单地定义为上述任何一种融合因为它们在整个模型框架中拥有不止一种融合方法。造融合怪是我们这些盐究圆天生的技能你说A有xxx好处B有xxx好处那我AB不就是直接赢麻了吗但是事实上很多情况都不能有效的把方法缝合进去。如深度融合和后融合方案的相互结合或者将前融合和深度融合结合在一起。这些方法在模型设计上存在冗余问题并不是融合模块的主流方法即没有取得AB的效果反而极大的牺牲了推理时间已经增大了算法的复杂度。一些实验结果 2Dkitti上的结果 3Dkitti上的结果
上面的实验结果大家可以简单的看一下就行
8 多模态感知融合的未来
近年来自动驾驶感知任务的多模态融合方法取得了快速进展从更高级的特征表示到更复杂的深度学习模型。然而仍有一些更开放的问题有待解决。在此我们总结了今后需要做的一些关键和必要的工作。
8.1 如何做更先进的融合方法
其实当前阻碍模态融合的最大拦路虎有两只。
A融合模型不对齐
B信息丢失
相机和激光雷达的内在和外在是截然不同的。两种方式的数据都需要在新的坐标系统下重新组织。
传统的早期和深度融合方法利用外部校准矩阵将所有激光雷达点直接投影到相应的像素上或反之亦然。因为数据样本会存在噪声在噪声的干扰下这种对齐的方式很显然是没有办法做到精准对齐的。无论怎样想要单靠机械的手段消除机器带来的误差不仅难度大还要付出比较大的成本。所以我们可以看到现在的方法除了这种严格的转化一一对应之外还可以利用一些周围信息作为补充以使得融合工作可以获得更好的性能。
此外在输入和特征空间的转换过程中不可避免会还存在一定的信息丢失。因为在特征提取的降维过程中投影会不可避免地导致大量的信息丢失。
因此通过将两个模态数据映射到另一种专门用于融合的高维表示可以在未来的工作中有效地利用原始数据减少信息损失。还有一些方法是采用直接的串联数据通过赋权值的方式进行融合。但是当前的方案依旧是不太成熟只通过像素之间的赋权值相加这些简单的操作可能无法融合分布差异较大的数据因此很难弥合两种模式之间的语义差距。一些工作试图使用更精细的级联结构来融合数据并提高性能。在未来的研究中双线性映射等机制可以融合不同特征的特征。
8.2 合理利用多个模态的信息
大多数框架可能只利用了有限的信息没有精心设计进一步的辅助任务来进一步了解驾驶场景。
我们当前做的内容会把语义分割、目标检测、车道线检测这些任务单独讨论割裂这些任务。之后再把不同的模型组合到一起提供服务其实这显然是冗余的工作。所以我们为啥不做一个多任务框架一次性覆盖不同的任务呢在自动驾驶场景中许多具有显式语义信息的下游任务可以大大提高目标检测任务的性能。例如车道检测可以直观地为车道间车辆的检测提供额外的帮助同时语义分割结果可以提高目标检测性能。
因此未来的研究可以同时通过对车道、交通灯、标志等下游任务进行同时的检测构建大一统的自动驾驶任务辅助感知任务的执行。
与此同时其实时序信息这类型的信息在自动驾驶感知任务里面也十分的重要。像BEVFormer就使用了RNN对时序信息进行整合最后使得整体任务可以有效的生成BEV的视图。时间序列信息包含了序列化的监督信号可以提供比单一帧的方法更稳定的结果也更加适应自动驾驶的整体任务需求。
未来的研究可以集中在如何利用多模态数据进行自监督学习包括预训练、微调或对比学习。通过实现这些最先进的机制融合模型将导致对数据的更深入的理解并取得更好的结果。大家看到MAE这么好的效果其实如果我们的感知任务也引入这套方法进行实验我相信一定会取得更可喜的成绩。
8.3 感知传感器的内在问题
区域的偏差或者分辨率上的不一致与传感器设备有密不可分的关系。这些意想不到的问题严重阻碍了自动驾驶深度学习模型的大规模训练和实现数据的质量以及数据的收集方案都是当前阻碍自动驾驶感知任务再发展的一大问题点。
在自动驾驶感知场景中不同传感器提取的原始数据具有严重的领域相关特征。不同的相机系统有不同的光学特性成像原理也不一致。更重要的是数据本身可能是有领域差异的如天气、季节或位置即使它是由相同的传感器捕获的他们所呈现出来的影像也有着很大的出入。由于这种变化检测模型不能很好地适应新的场景。这种差异会导致泛化失败导致大规模数据集的收集和原始训练数据的可重用性下降。因此如何消除领域偏差实现不同数据源的自适应集成也会是今后研究的关键。
来自不同模式的传感器通常具有不同的分辨率。例如激光雷达的空间密度明显低于图像。无论采用哪种投影方法都没有办法找到一一对应关系所以常规的操作会剔除一些信息。无论是由于特征向量的分辨率不同还是原始信息的不平衡都可能会导致弱化了一边模态分支的信息量或者说是存在感。变成以某一特定模态的数据为主因此未来的工作可以探索一种与不同空间分辨率的传感器兼容的数据方式。
9 总结
文章很详细的为我们整理了当前多模态融合的一些工作以及一些未来发展的方向。其实我觉得我们需要一套合理化决策而且成本较低的多模态融合框架就需要我们对我们的数据更加的了解。此外我们也需要更多的数据。更多的分析成本的投入。像自监督、对比学习、大规模预训练这类型的赋能工作直接一套或许也能取得很棒的成绩但是这种核弹式的打击并不是优化工作的核心内容。无论是前、深、后、不对称哪种强融合方式都有自身的弊端。都需要我们对其进行进一步的优化改进需要我们根据需要融合的数据特性进行调整。当前的融合可能是单一的两个模态的交互融合但是实际上未来的工作远远不止两个模态两个传感器进行交互这么简单那么我们现在的工作又可以怎么做呢这个故事还需要我们继续进行探讨
THE END!
文章结束感谢阅读。您的点赞收藏评论是我继续更新的动力。大家有推荐的公众号可以评论区留言共同学习一起进步。