网站开发前端与后端源代码,腾讯云wordpress安装教程,网站设置关键词,网站前瞻性 新流量机会内容建设分析Abstract
近年来#xff0c;基于对比视觉语言预训练(CLIP)的零镜头和少镜头学习在二维视觉识别中表现出了令人鼓舞的效果#xff0c;该方法在开放词汇设置下学习图像与相应文本的匹配。然而#xff0c;通过大规模二维图像-文本对预训练的CLIP是否可以推广到三维识别#x…
Abstract
近年来基于对比视觉语言预训练(CLIP)的零镜头和少镜头学习在二维视觉识别中表现出了令人鼓舞的效果该方法在开放词汇设置下学习图像与相应文本的匹配。然而通过大规模二维图像-文本对预训练的CLIP是否可以推广到三维识别还有待探讨。在本文中我们通过提出PointCLIP来确定这种设置是可行的PointCLIP在CLIPencoded的点云和3D类别文本之间进行对齐。具体而言我们通过将点云投影到多视图深度图上对其进行编码并以端到端的方式聚合逐视图的零射击预测从而实现了从2D到3D的有效知识传递。为了更好地提取全局特征并将3D少镜头知识自适应地融合到2D预训练的CLIP中我们进一步设计了一个访谈视图适配器。只需在少量镜头设置下微调适配器PointCLIP的性能就可以得到很大提高。此外我们还观察了PointCLIP与经典3d监督网络之间的知识互补特性。通过在推理过程中简单的集成PointCLIP有助于在最先进的3D网络上实现有利的性能增强。因此PointCLIP是一种很有前途的替代方案可以在低数据条件下以边际资源成本有效地理解3D点云。我们在ModelNet10、ModelNet40和ScanObjectNN上进行了深入的实验以证明PointCLIP的有效性
Introduction
在深度学习领域尽管2D和3D视觉任务已经取得了显著进展如图像分类、目标检测和语义分割等但3D点云数据的处理仍然面临空间稀疏性和不规则分布的挑战。特别是模型在训练时未曾遇到过的对象类别现有的分类器往往难以有效识别。针对这一问题对比视觉语言预训练CLIP模型在2D视觉识别中的成功应用提出了一个具有挑战性的想法将CLIP模型扩展到3D领域实现对3D点云数据的理解和分类。CLIP通过大规模图像-文本对的预训练学习了图像与文本之间的关联从而在零样本设置下展现出对未见类别的识别能力。然而将这种能力迁移到3D点云上并非易事需要解决从2D图像到3D点云的跨模态知识转移问题。为了应对这一挑战作者提出了PointCLIP方法它通过将点云数据投影到多个视图的深度图上并利用CLIP的预训练视觉编码器提取特征实现了对3D点云的零样本分类。PointCLIP的优势在于即使在没有3D训练数据的情况下也能利用2D图像-文本对的预训练知识来理解和分类3D点云数据这对于在数据稀缺的情况下进行3D点云理解具有重要意义。
论文的研究目标是在低数据条件下实现有效的3D点云理解并以边际资源成本实现这一目标。作者们计划在ModelNet10、ModelNet40和ScanObjectNN等数据集上进行实验以验证PointCLIP方法的有效性并提出未来的工作将探索CLIP在更广泛的3D应用中的泛化能力。
Related work
主要是介绍一些相关的概念。
Zere-shot learning in 3D
零样本学习在3D领域的目标是识别在训练中未出现过的对象。尽管这一概念在2D分类中已广受关注但在3D领域的应用研究相对较少。早期的工作通过将3D数据集分为“见过”和“未见”的样本并使用前者训练PointNet来识别后者。随后的研究通过改进3D特征质量和引入三元损失来提高归纳学习的性能允许使用未标记的数据。与这些方法不同PointCLIP不依赖于3D样本的训练而是通过2D数据进行预训练实现对3D未见样本的直接零样本识别这一设置在跨2D到3D领域的知识转移方面更具挑战性并且对于解决实际问题具有紧迫性。
Transfer Learning
迁移学习是一种利用数据丰富的领域知识来辅助数据较少领域学习的技术。在视觉领域ImageNet预训练对目标检测和语义分割等任务有显著帮助。在自然语言处理领域通过网页爬取的语料库预训练的模型在机器翻译和自然语言推理任务上取得了优异的性能。
CLIP作为一种新引入的模型在没有经过微调的情况下对未见数据集展现出了卓越的图像理解能力。进一步的工作表明通过引入特定领域的监督CLIP的性能可以得到显著提升。然而大多数现有方法都在相同模态内进行知识转移如图像到图像或语言到语言。与这些方法不同PointCLIP能够实现从2D图像到3D点云的跨模态知识转移这为未来在不同模态之间进行迁移学习的研究提供了新的方向和动机。
Deep neural network for point cloud
点云深度神经网络主要分为基于点的方法和基于投影的方法。基于点的方法如PointNet和PointNet通过多层感知器对点进行编码并使用最大池化操作保证排列不变性近期的研究还引入了更先进的架构设计和几何提取器以提高点云解析能力。而基于投影的方法则将点云转换为体积或多视图数据形式多视图方法通过将点云投影到多个视图的图像上并利用在ImageNet上预训练的2D CNN进行处理。然而这些方法通常需要离线生成或后期渲染成本较高且不适用于实时应用。与此相反本文提出的SimpleView方法直接将原始点投影到图像平面上通过点的垂直距离设置像素值这种方法具有较低的时间和计算成本适合高效的端到端零样本识别任务。
Method
首先是一个概述在第3.1节中首先回顾对比视觉语言预训练(CLIP)用于2D零射击分类。然后在3.2节中介绍PointCLIP将2D预训练的知识转移到3D点云中。在3.3节中提供一个访谈视图适配器以获得更好的少镜头性能。在第3.4节中建议将PointCLIP与经过充分训练的经典3D网络集成以进行多知识互补。
A Revisit of CLIP PointCLIP的管道。为了弥合模态差距PointCLIP将点云投影到多视图深度图上并通过在2D中预训练的CLIP进行3D识别。该开关提供了直接零弹分类和少弹分类的替代方案分别以实线和虚线表示从这个图中可以看到分成了视觉编码和文本编码两种方式。 CLIP是一个预训练模型它通过两个独立的编码器分别对图像和文本特征进行编码以便将图像与其自然语言描述相匹配。在训练过程中CLIP从互联网上收集了4亿个图像-文本对通过对比损失在嵌入空间中对齐图像和文本的特征实现了对开放词汇表中任何语义概念的零样本分类能力。对于未见数据集CLIP使用预定义模板构建文本输入并利用类别文本的C维特征获得零样本分类器。CLIP的视觉编码器将测试图像编码为特征向量然后通过这些特征和文本编码器的权重计算分类logits并通过softmax函数得到K个类别的预测概率。整个过程无需额外的训练图像依赖预训练编码器实现优秀的零样本分类性能。
Point Cloud Understanding by CLIP
这一部分提出了PointCLIP是一个基于预训练的CLIP模型的方法用于点云数据的零样本学习。
由于3D数据集通常比2D数据集小且类别有限这使得难以获得适合迁移学习的预训练3D网络。为了解决这个问题PointCLIP通过从多个视图生成点投影图像将无序的3D点云数据转换为CLIP能够处理的格式从而弥合了2D和3D之间的模态差距。这些投影图像保留了点云的原始属性并且通过简单的深度图投影以最小的时间和计算成本实现了高效的端到端零样本识别。
PointCLIP利用CLIP的预训练2D知识通过视觉编码器提取多视图特征并通过文本编码器构建零样本分类器通过加权求和的方式聚合来自不同视角的分类结果实现了对点云的整体理解而无需任何3D训练数据。
Inter-view Adapter for PointCLIP Inter-view适配器的详细结构。给定点云的多视图特征适配器提取其全局表示并生成面向视图的自适应特征。通过残差连接将新学习的3D知识融合到预训练的CLIP中 PointCLIP虽然在点云上实现了高效的零样本分类但其性能仍不及完全训练的3D神经网络。为了解决这一问题作者提出了一种视图间适配器是一个附加在PointCLIP之上的三层多层感知器MLP用于在少样本设置下提升性能。
在训练过程中CLIP的视觉和文本编码器被冻结只有适配器通过交叉熵损失进行微调。适配器通过连接多视图的特征并经过两层线性变换获取全局表示然后基于全局特征生成适应性特征并通过残差连接将其添加回原始CLIP编码的特征。
这种方法不仅增强了对点云的整体理解而且将新学习到的3D少样本知识融合到2D预训练的CLIP中进一步提升了跨模态性能。通过仅使用少量样本微调适配器PointCLIP在ModelNet40数据集上实现了显著的性能提升从而证明了特征适应在3D少样本数据上的重要性和有效性。
Multi-knowledge Ensemble
PointCLIP与传统的点云网络不同它不是从零开始在3D数据集上训练而是继承了2D视觉-语言学习的预训练知识。
研究者探究了将传统点云网络和PointCLIP的知识结合起来的可能性以提高推理性能。实验中PointNet和PointCLIP的集成通过简单的相加方式提升了分类性能证明了不同来源知识互补的有效性。这种集成方法不仅在PointNet上有效与其他最先进的3D网络集成时也能观察到类似的性能提升。
因此PointCLIP可以作为一个即插即用的增强模块用于提升点云识别的鲁棒性。这表明通过结合不同领域的知识可以显著提高模型的性能尤其是在数据稀缺的情况下。
Experiment
Zero-shot Classification
在这个实验中PointCLIP配备了视图间适配器并在1到16次shot的设置下在ModelNet10、ModelNet40和ScanObjectNN数据集上进行了实验。实验中选择了ResNet-101作为CLIP的预训练视觉编码器以加强特征提取并增加了投影视图的数量至10个特别是增加了左侧视图。实验结果表明PointCLIP在少样本分类任务中优于其他四种代表性的3D网络包括PointNet、PointNet、SimpleView和CurveNet。消融实验进一步分析了不同投影视图对性能的影响并发现在16次shot设置下10个视图比6个视图表现更好。
此外不同的视觉编码器和提示设计对性能也有显著影响其中ResNet-101编码器和“点云的大[CLASS]”提示设计表现最佳。
最后通过与其他完全训练的3D网络集成PointCLIP进一步提升了性能证明了其作为即插即用增强模块的潜力能够实现更稳健的点云识别。
Few-shot Classification
这一部分描述了PointCLIP在少样本学习环境下的实验设置、性能表现和消融研究。实验在ModelNet10、ModelNet40和ScanObjectNN数据集上进行采用了视图间适配器并在1到16次shot的设置下进行。为了提高效率和性能使用了ResNet-101作为预训练的视觉编码器并增加了投影视图的数量至10个。
实验结果显示PointCLIP在少样本分类任务中优于其他几种3D网络。消融研究表明增加投影视图的数量可以提高性能尤其是左侧视图对性能的提升最为显著。此外不同的视觉编码器和提示设计对性能有显著影响其中ResNet-101编码器和特定提示设计表现最佳。最后通过与其他3D网络集成PointCLIP进一步提升了性能证明了其作为多知识集成模块的潜力。
Multi-knowledge Ensemble
这部分主要展示了PointCLIP与其他几种3D网络模型集成后性能提升的数据。表中列出了六种不同的3D网络模型PointNet、PointNet、RSCNN、DGCNN、SimpleView、CurveNet在有无PointCLIP集成时的准确率对比以及性能提升的具体数值和增益比率。这些数据显示了PointCLIP作为一个多知识集成模块能够显著提升现有3D网络的性能尤其是在只有少量样本16-shot的情况下PointCLIP在ModelNet40数据集上达到了87.20%的准确率。这表明PointCLIP能够有效地与其他模型集成通过补充2D视觉语言预训练的知识来增强3D点云的识别能力。
Conclusion
本文提出了PointCLIP它可以在没有任何3D训练的情况下对点云进行跨模态零射击识别。通过多视图投影PointCLIP有效地将CLIP预训练的2D知识转移到3D领域。
此外设计了一个跨视图适配器来聚合多视图特征并在少量镜头设置下将3D学习的知识融合到预训练的CLIP中。通过微调适配器并冻结所有其他模块PointCLIP的性能得到了很大提高。此外PointCLIP还可以作为一个即插即用模块为传统的3D网络提供补充知识从而提高性能。除了识别之外未来的工作将集中在将CLIP推广到更广泛的3D应用上。