做网站运营有前途,页面设计的像胶囊怎么形容,平面网页设计规范,wordpress 值班系统文章目录 相关资料摘要引言相关工作对比语言图像预训练遥感域专用 CLIP 模型遥感中的多模态 CLIP 启发模型 方法模型算法输入阶段#xff1a;输出阶段#xff1a;步骤说明#xff1a; 第一阶段#xff1a;通过权重插值修补CLIP将遥感图像模态与自然图像和文本对齐 实验 相关… 文章目录 相关资料摘要引言相关工作对比语言图像预训练遥感域专用 CLIP 模型遥感中的多模态 CLIP 启发模型 方法模型算法输入阶段输出阶段步骤说明 第一阶段通过权重插值修补CLIP将遥感图像模态与自然图像和文本对齐 实验 相关资料
论文Mind the Modality Gap: Towards a Remote Sensing Vision-Language Model via Cross-modal Alignment
摘要
深度学习DL正在经历一场范式转变随着基础模型的出现这些基础模型被称为关键但不完整的模型。在这项工作中我们专注于对比语言-图像预训练CLIP这是一个开放词汇基础模型可以在许多图像分类任务中取得很高的准确率并且通常与完全监督的基线竞争性能而无需显式训练。然而仍然存在一些域其中零样本CLIP性能远非最佳例如遥感RS和医学图像。这些领域不仅与自然图像相比具有根本不同的分布而且通常依赖于RGB之外的互补模态来提取有意义的见解。为此我们提出了一种方法目的是将不同的RS图像模态与CLIP的视觉和文本模态进行对齐。我们的两阶段过程包括对CLIP进行鲁棒微调以处理分布转移同时伴随RS模态编码器的跨模态对齐以扩展CLIP的零样本能力。最终我们在RS图像分类和跨模态检索任务上展示了我们的方法。我们在几个RS基准数据集上经验性地展示鲁棒微调和跨模态对准都能转化为显著的性能提升。值得注意的是这些增强是在不依赖文本描述、不引入任何特定任务参数、不从头开始训练以及不引入灾难性遗忘的情况下实现的。
引言
相较于典型的图像分类器开放词汇模型并不受限于固定的分类空间能够使用分类名的文本描述执行任何图像分类任务。另一方面作为基础模型的深度学习模型通常通过规模上的自监督训练在大量通过网络爬虫方法获取的未标记数据上进行训练它们是大型且多功能的深度学习模型可以适用于各种下游任务。开放词汇基础模型结合了大规模预训练和处理固定词汇以外单词的能力因此引起了极大关注得益于其卓越性能和在不同领域的泛化能力尤其在文本输入可能包含特定领域术语的情况下这些模型尤其有用。 然而在某些领域如遥感和医学图像等领域零样本CLIP性能仍远未达到最佳水平。尤其是在卫星场景分类方面这是CLIP作者提出的少数任务之一在EuroSAT数据集上零样本CLIP表现明显低于完全监督的ResNet50基准模型导致最大的差值37.1%。 为此我们确定了卫星场景分类任务的三个主要差距并在本研究中加以解决
第一个差距涉及分布转移即在训练期间使用的数据与模型部署时遇到的数据明显不同时导致性能显著下降的潜在数据分布变化。第二个差距来自仅依赖RGB模态所造成的信息约束。卫星影像通常利用超出RGB的辅助模态如多光谱、高光谱和雷达数据以及这些模态的副产品如InSAR数据从而获得有意义的见解。第三个差距涉及具有卫星影像及相应文本描述对的数据集的稀缺性。 通常使用的遥感图像-文本配对数据集仅限于航空和超高分辨率商业卫星图像。这些数据集存在两个相关缺点。首先它们不依赖于免费开放数据如庇护神哨卫星星座数据。其次这些数据集的空间分辨率直接关系到从场景中检索的细节级别导致与非商业卫星数据相比具有不同的基础数据分布。这两个因素限制了它们在下游应用中的可用性。
为了解决这些差距我们提出了一个新颖的方法学包括两个连续阶段旨在在CLIP的背景下对RS图像模态进行跨模态对齐。我们的研究基于OpenAI的CLIP预训练图像-文本模型的集合。在第一步中我们定义了一个修补过程通过使用RS数据的RGB混合图像对CLIP进行强化微调以处理上述分布偏移而不影响CLIP在自然图像分类任务上的零样本性能。至于第二步我们通过将预训练的RS编码器与CLIP的视觉和文本模态进行跨模态对齐扩展了CLIP的零样本能力。
我们的主要贡献可以总结如下
我们提出了一种在CLIP背景下对RS图像模态进行跨模态对齐的新方法无需依赖文本描述无需引入任何特定于任务的参数无需从头开始训练也无需发生灾难性遗忘。我们评估了修补和对齐模型的泛化能力并在一系列著名的RS图像数据集上提供了关于RS图像分类和跨模态检索任务的广泛基准数据。
相关工作
对比语言图像预训练
LAION-AI基于OpenAI的CLIP开源实现OpenCLIP展示了令人印象深刻的结果。他们设法复制了OpenAI的专有预训练数据集随后在各种数据源和计算预算范围从小到大的实验中使用不同构架对多个模型进行了训练和发布。在CLIP预训练的背景下最近取得的进展展示了在预训练数据过滤、模型架构和计算效率方面的显著成就导致了实质性的改进并最终确立了在预训练CLIP模型时代的新标准。
遥感域专用 CLIP 模型
数据被视为基础模型训练的基石CLIP也不例外。就RS领域而言在与CLIP相关的发展方面落后主要是因为领域内图像-文本配对数据稀缺。因此近期的发展主要围绕着利用现有有限范围的RS数据集以及数据高效调整CLIP模型以解决手头的问题。
Arutiunian等人利用三个小型现有的RS图像字幕数据集对CLIP进行了微调并展示了他们在检索相关任务上的结果。Czerkawski等人强调在零样本设置下CLIP难以检测到无云图像并通过在CLIP图像编码之上的单个线性层进行几百次优化步骤的低成本训练阶段来减轻这一限制展示了改进的性能及跨各种传感器类型和光谱波段的可转移性。Singha等人提出了一种基于图像情境提示学习策略的APPLeNet用于利用CLIP模型进行少样本RS图像泛化。他们的方法专注于多尺度特征学习并在RS中域泛化任务中对视觉风格和内容基元进行解耦优于几个RS基准数据集中的零样本CLIP。Liu等人提出了RemoteCLIP一种RS领域专门化的CLIP模型。Zhang等人提出了RS5M一个500万 RS 图像字幕数据集通过过滤公开可用的图像-文本配对数据集和使用预训练的 VLM 对仅具有字幕标签的 RS 数据集进行字幕化旨在微调 CLIP。 他们尝试了完全微调和几种参数高效微调方法并最终展示了他们的最终模型 GeoRSCLIP在零样本分类、跨模态图像-文本检索以及与最先进的 RS 定制 CLIP 模型相比的语义定位任务上的表现。Yuan等人引入了一种参数高效的迁移学习PETL方法用于 RS 图像-文本检索利用了预训练的 CLIP 模型、多模态适配器和混合多模态对比学习目标优于传统方法并且大幅降低了训练成本相比完全微调。Mo等人提出了 S-CLIP一种用于微调 CLIP 的半监督学习方法通过使用特定设计用于对比学习的伪标签策略利用额外的未配对图像显著提高微调结果使用的图像-文本对数量比通常所需的更少。Bhattacharya等人提出了 C-SAW一种自监督提示学习技术将重建任务纳入 RS 应用中的图像泛化。在微调过程中他们保持了 CLIP 骨干网络冻结并为两个 CLIP 编码器引入了一小组投影器使用 C-SAW 进行对比训练。Dhakal等人提出了一种用于基于自由形式文本描述创建地图的新型弱监督方法称为无标记映射。 他们利用一个名为 Sat2Cap 的对比学习框架训练了配对的高空和地面级图像以从卫星图像中预测地面景观的 CLIP 嵌入。他们成功地映射了各种属性而无需文本标记数据克服了以前仅能映射预定义属性的模型的局限性。Mall等人通过对训练一个将 RGB 卫星图像映射到相同表示空间的冻结 CLIP 图像编码器的对比学习使用大量配对的互联网图像和 RGB 卫星图像复合物解决了文本描述稀缺性的问题。 利用大量的地面卫星图像对而无需伴随文本比在小数据集上进行有监督微调更为有益。
遥感中的多模态 CLIP 启发模型
Allen等人利用三种不同的RS图像模态Sentinel-2 RGB光学和Sentinel-1 SAR雷达振幅和干涉相干性在覆盖地球总陆地面积较小百分比的五个AOI上预训练了基于ViT的CLIP模型。该模型由三个单独的单通道ViT-based输入编码器组成这些编码器在预训练期间对每种模态都选择随机的通道进行操作旨在在所有三种模态之间创建一个共享的嵌入空间同时测量每对模态的相似性然后求平均。Klemmer等人[65]展示了SatCLIP一个全球性的地理位置编码器利用全球可用的卫星图像学习通用隐式表示通过使用CLIP目标来匹配卫星图像及其各自的坐标进行预训练。Cepeda等人[66]引入了GeoCLIP一种基于CLIP灵感的用于全球定位的图像到GPS检索方法。与SatCLIP不同GeoCLIP利用预训练的CLIP图像编码器并强化与相应GPS位置的对齐。使用分层学习和随机傅里叶特征GeoCLIP在有限数据设置中展示了出色的有效性并在众多下游任务中有潜在应用。Khanal等人[67]提出了GeoCLAP基于声音与地理位置的视觉特征之间的关系为声景映射任务提出了一种对比学习框架。他们利用基于CLIP的模型对三种数据进行编码地理标记的音频记录音频的文本描述以及其拍摄位置的高空图像。
方法
让 D { ( I S A T 1 , y 1 ) , . . . , ( I S A T n , y n ) } D \{(I^1_{SAT} , y_1), . . . , (I^n_{SAT} , y_n)\} D{(ISAT1,y1),...,(ISATn,yn)} 成为一个标记的 RS 成像存档其中包含 n n n 个图像-标签对其中 ( I S A T n , y n ) (I^n_{SAT} , y_n) (ISATn,yn) 是存档中的第 n 个图像-标签对。每个图像 I S A T i I^i_{SAT} ISATi 都有一个相应的 RGB 复合图像 I R G B i ⊊ I S A T i I^i_{RGB} ⊊I^i_{SAT} IRGBi⊊ISATi使用一个取决于 I S A T I_{SAT} ISAT 的 RS 模态的专用函数 T R G B ( ) T_{RGB} () TRGB()生成。鉴于 RS 成像集合 I S A T I_{SAT} ISAT 和相应的 RGB 复合物集合 I R G B ( ) I_{RGB} () IRGB()以及相关的标签 y y y我们旨在通过利用 RGB 复合物和标签作为锚点来学习一个共享的嵌入空间 E E E以有效地对齐这些模态。目标是找到一个映射 f : I S A T ∪ I R G B ∪ y → E f: I_{SAT} ∪I_{RGB} ∪ y → E f:ISAT∪IRGB∪y→E使得对于每个三元组 ( I S A T i , I R G B i , y i ) (I^i_{SAT} , I^i_{RGB} , y^i ) (ISATi,IRGBi,yi)嵌入 f ( I S A T i ) 、 f ( I R G B i ) f (I^i_{SAT} )、f (I^i_{RGB}) f(ISATi)、f(IRGBi) 和 f ( y i ) f (y^i ) f(yi) 在 E E E中紧密对齐。最终的嵌入空间 E E E 通过学习的表示促进了 RS 成像模态、RGB 图像和文本之间的关联从而实现了多模态下游任务。 为此我们采用了一个分为两个阶段的方法明确定义如算法 1。
模型算法
输入阶段 初始化预训练的CLIP模型 M和分词器 T加载预训练的CLIP模型和用于文本处理的分词器。 定义数据集D包含若干图像-标签对 (xi, yi)类别名称集合Dclassnames以及提示集合Dprompts。 初始化预训练的卫星成像模式编码器Msat加载用于处理卫星图像数据的预训练编码器。
输出阶段
输出对齐的卫星编码器Msat返回经过对齐的卫星成像模式编码器该编码器能够与CLIP模型的视觉和文本模式更好地协同工作。
步骤说明 创建分类头cls_head() 设置CLIP模型为推理模式。为每个类别创建一个分类头通过将类别名称格式化为提示、分词、编码文本然后归一化和平均文本嵌入。 对齐模型align(Mteach, Mstud) 初始化一个冻结的分类头h使用cls_head()创建的分类头。设置Mstud卫星成像模式编码器为可训练状态同时冻结MteachCLIP图像编码器。对于数据集中的每一对图像xiRGB图像和其对应的卫星图像xi获取它们在CLIP模型和卫星编码器中的嵌入表示。使用分类头h对卫星图像的嵌入进行分类并计算损失函数该函数是均方误差(MSE)和交叉熵(CE)的线性组合。 主函数main() 步骤 1: CLIP模型修补Patching 使用BigEarthNet-S2数据集的RGB组合图像对CLIP模型进行微调。通过微调前后的权重线性插值找到平衡修补任务和支持任务性能的混合系数α。 步骤 2: 跨模态对齐 加载卫星成像模式编码器Msat并使用align()函数将其与CLIP模型的图像和文本编码器进行对齐。
这个算法的目的是通过两个阶段的处理使得卫星成像模式编码器能够在一个共享的嵌入空间中与CLIP模型的视觉和文本模式有效对齐从而提高遥感图像的分类和检索性能。 第一步解决卫星成像中的分布偏移通过对 CLIP 图像编码器进行稳健的微调。 随后在第二阶段卫星多光谱模态嵌入与 RGB 图像和文本嵌入对齐即将 Sentinel-2 多光谱成像对齐到 RGB 复合物和文本。由此产生的嵌入空间有效地关联了模态对使得可以进行大量交叉模态检索和基于文本的零样本下游任务。
第一阶段通过权重插值修补CLIP Patching with InterpolationPAINT能显著提高在分布转变下的准确性同时在目标分布上保持高性能。PAINT采用两步过程包括对模型进行微调然后在微调之前和之后的模型权重之间进行线性插值。这种方法使得模型在更多任务上实现高准确性而无需引入任何特定任务的参数也无需从头重新训练模型同时避免灾难性遗忘。 为了处理自然图像与卫星图像之间的分布转变我们首先对CLIP进行了稳健微调如图1所示遵循了Ilharco等人描述的补丁协议。最终我们得到了一个精炼的嵌入空间从而为便于进行卫星交叉模态对准阶段奠定了坚实的基础。鉴于一个开放词汇模型即CLIP带有权重 W z s W_{zs} Wzs 我们在来自一个补丁任务 D p a t c h D_{patch} Dpatch 的训练数据上对 W z s W_{zs} Wzs 进行了微调目的是产生权重 W f t W_{ft} Wft在 D p a t c h D_{patch} Dpatch上表现高准确性而不降低已经足够良好的支持任务 D s u p p D_{supp} Dsupp上的性能。因此通过保留的 D p a t c h D_{patch} Dpatch和 D s u p p D_{supp} Dsupp上的留出验证集确定一个混合系数 α ∈ [ 0 , 1 ] α ∈ [0, 1] α∈[0,1]以线性插值 W z s W_{zs} Wzs 和 W f t W_{ft} Wft并生成 W p a t c h ( 1 − α ) × W z s α × W f t W_{patch} (1-α)×W_{zs} α×W_{ft} Wpatch(1−α)×Wzsα×Wft 。实质上 W z s W_{zs} Wzs 、 W f t W_{ft} Wft和 W p a t c h W_{patch} Wpatch是CLIP图像编码器的权重。Ilharco等人[68]在微调过程中使用CLIP的文本冻结输出作为图像编码器的输出层以将图像特征映射到类别空间而不是引入一个可学习的分类层。
将遥感图像模态与自然图像和文本对齐 在跨模态对齐阶段如图 2 所示我们利用第一阶段中使用的已修补的 CLIP 图像编码器 M p a t c h e d M_{patched} Mpatched 作为教师网络以及一个预训练的卫星模态编码器 M s a t M_{sat} Msat 作为学生网络。为了有效地对齐这两个网络我们采用一个基于以下假设的简单方法即与相同样本相关的多种模态应在共享的CLIP嵌入空间中产生类似的嵌入。该过程涉及一对模态 I R G B I_{RGB} IRGB和 I S A T I_{SAT} ISAT 对应于 RGB 组合和其他遥感模态。对于给定的来自这两个模态的图像 x i ∈ I R G B x_i ∈ I_{RGB} xi∈IRGB 和其对应的样本 x ~ i ∈ I S A T \widetilde{x}_i ∈ I_{SAT} x i∈ISAT我们获得它们各自的嵌入 E i M p a t c h e d ( x i ) E_i M_{patched}(x_i) EiMpatched(xi) 和 E ~ i M s a t ( x ~ i ) \widetilde{E}_i M_{sat}(\widetilde{x}_i) E iMsat(x i)。 在嵌入维度 E i E_i Ei 和 E ~ i \widetilde{E}_i E i 不同的情况下我们为学生网络 M s a t M_{sat} Msat 引入一个线性投影头以确保输出嵌入尺寸匹配。 受知识蒸馏 [72] 损失函数以及先前的蒸馏工作 [73]-[76] 启发通过一个联合目标函数 L I , M L_{I,M} LI,M指导学生模仿教师的视觉和文本嵌入该函数由交叉熵损失 L C E L_{CE} LCE 和均方误差损失 L M S E L_{MSE} LMSE 的线性组合构成。 L C E L_{CE} LCE通过使用 CLIP 文本编码器的冻结输出作为锚点利用标记数据监督确定将图像特征映射到类别空间而 L M S E L_{MSE} LMSE 鼓励学生模仿教师的输出嵌入与原始知识蒸馏损失的相对柔化的类别得分形成对比。
实验