铁岭网站建设公司,装饰工程公司起名字大全免费,中国建设工程监理协会官方网站,新西兰网站后缀摘要
本文提出了一个名为 Unified Language-driven Zero-shot Domain Adaptation#xff08;ULDA#xff09;的新任务设置#xff0c;旨在使单一模型能够适应多种目标领域#xff0c;而无需明确的领域标识#xff08;domain-ID#xff09;知识。现有语言驱动的零样本领域…摘要
本文提出了一个名为 Unified Language-driven Zero-shot Domain AdaptationULDA的新任务设置旨在使单一模型能够适应多种目标领域而无需明确的领域标识domain-ID知识。现有语言驱动的零样本领域适应任务存在限制例如需要领域ID和领域特定模型这限制了模型的灵活性和可扩展性。为了解决这些问题作者提出了一个包含三个组件的新框架层次上下文对齐Hierarchical Context Alignment, HCA、领域一致表示学习Domain Consistent Representation Learning, DCRL和文本驱动校正器Text-Driven Rectifier, TDR。这些组件协同工作分别在多个视觉层面上对齐模拟特征与目标文本、保留不同区域表示之间的语义相关性以及校正模拟特征与真实目标视觉特征之间的偏差。大量实证评估表明该框架在两种设置中均取得了具有竞争力的性能甚至超越了需要领域ID的模型展现了其优越性和泛化能力。该方法不仅有效而且在推理时不会引入额外的计算成本具有实用性和效率。
Introduction
拟解决的问题
领域适应中的灵活性和可扩展性问题现有方法需要领域ID来选择领域特定的模型这限制了模型在实际应用中的灵活性和可扩展性。例如在“雨中驾驶”和“雪中驾驶”两种任务领域中需要分别训练两个独立的模型来适应这些领域。缺乏目标领域数据时的模型适应性问题在实际应用中由于隐私问题或数据稀缺性可能无法直接访问目标领域的图像数据。因此需要开发一种能够在没有目标领域图像的情况下仅通过文本描述来适应目标领域的模型。
如下图所示。我们提出的统一语言驱动的领域适应ULDA任务侧重于现实世界的实际场景。在训练阶段ULDA不允许访问目标域的图像只提供源域图像和文本描述。在测试期间ULDA需要一个单一的模型来适应不同的目标域而不是像以前的方法那样使用特定于域的头。 创新之处
提出了一种新的任务设置ULDA与现有方法不同ULDA要求单个模型能够适应多种目标领域而无需在测试时提供领域ID这更符合实际应用场景。
设计了一个包含三个关键组件的新框架
层次上下文对齐HCA通过在场景级别、区域级别和像素级别对齐特征与文本嵌入解决了全局对齐可能导致的语义损失问题。领域一致表示学习DCRL通过保留不同类别在不同领域中的语义相关性确保了模型在不同领域之间的结构一致性。文本驱动校正器TDR通过利用文本嵌入来校正模拟特征减少了模拟特征与真实目标特征之间的偏差提高了模型的泛化能力。
在推理阶段不引入额外计算成本该方法在保持有效性的同时确保了模型在实际应用中的实用性和效率。
Preliminary
PØDA 是一种用于计算机视觉中零样本领域适应Zero-shot Domain Adaptation, ZSDA的范式。它通过仅利用目标领域的自然语言描述而无需目标领域的图像数据来训练模型从而实现从源领域到目标领域的适应。PØDA 的核心思想是利用预训练的 CLIP 编码器来优化源特征的转换并将其与目标领域的文本嵌入对齐。
PØDA 的训练过程分为两个阶段
第一阶段模拟目标特征Simulating Target Features Prompt-driven Instance Normalization (PIN)PØDA 引入了 PIN 操作通过可学习的变量 μ 和 σ这些变量由目标领域的文本提示引导来模拟目标领域的知识。具体公式如下 其中fs 是源域特征μ(fs) 和 σ(fs) 分别是源特征的均值和标准差。
对齐目标文本嵌入为了确保从源域到目标域的适当转换需要通过以下损失函数促进 fs→tPIN 与 CLIP 文本嵌入 TrgEmb 之间的相似性 其中是通过 Prompt-driven Instance Normalization (PIN) 转换后的全局特征TrgEmb 是目标文本嵌入。
第二阶段微调分割头Fine-tuning the Segmentation Head
在第一阶段获得模拟特征后PØDA 对预训练的分割头进行微调使模型能够更好地适应目标领域的下游任务。这一阶段的训练由分割预测与真实掩码之间的交叉熵损失监督。
方法
提出了一种名为 Unified Language-driven Zero-shot Domain Adaptation (ULDA) 的新方法旨在使单一模型能够适应多种目标领域而无需明确的领域标识domain-ID。该方法的核心在于通过语言驱动的方式仅利用源域数据和目标域的文本描述来实现对目标域的有效适应。ULDA框架包含三个关键组件层次上下文对齐HCA、领域一致表示学习DCRL 和 文本驱动校正器TDR。这些组件协同工作分别从特征对齐、语义一致性保持和特征校正三个方面提升模型的泛化能力和适应性。 1. 层次上下文对齐Hierarchical Context Alignment, HCA
Vanilla scene-text 对齐会导致语义丢失。PØDA 通过等式直接将池化特征 fs→t 与文本嵌入 TrgEmb 对齐在场景级别实现了视觉语言对齐。然而模型仅通过调整全局上下文以适应目标域来实现与目标域的良好对齐具有挑战性因为在将场景中不同对象的特征对齐到单个共享目标域嵌入时这可能会导致潜在的语义损失从而导致偏离它们各自的真实语义分布。为了缓解这个问题我们提出了一种分层上下文对齐 (HCA) 策略该策略可以在多个级别上对特征进行复杂的对齐包括 1) 整个场景2) 场景中的区域以及 3) 场景中的像素。
1.1 场景级别对齐 HCA 的第一个层次是场景级别对齐目标是将全局特征与目标文本嵌入对齐。具体来说通过以下公式实现 其中是通过 Prompt-driven Instance Normalization (PIN) 转换后的全局特征TrgEmb 是目标文本嵌入。该损失函数通过最大化全局特征与文本嵌入的相似性使模型能够适应目标域的整体语义。
1.2 区域级别对齐 区域级别对齐的目标是保留不同类别在场景中的独特语义特征。具体步骤如下
1.利用类别名称和目标域描述生成细粒度的文本嵌入其中 n 是类别数量d 是嵌入维度。
2.将图像特征图与类别标签转换为二值掩码。
3.通过掩码平均池化Masked Average Pooling, MAP计算每个类别的区域原型 4.计算区域原型 C 与文本嵌入 T 之间的相似性矩阵 5.通过以下公式优化区域对齐损失 1.3 像素级别对齐 像素级别对齐进一步细化特征与文本嵌入之间的对齐目标是使每个像素的特征更接近目标域的语义。具体步骤如下
1.计算每个像素的类别概率 2.使用像素级标签计算交叉熵损失 1.4 总体损失
HCA 的总体损失函数为 2. 领域一致表示学习Domain Consistent Representation Learning, DCRL DCRL 的目标是确保不同领域之间的语义相关性保持一致。例如“雪中的公共汽车”、“雨中的公共汽车”和“夜间的公共汽车”的文本嵌入可能与“雪”、“雨”和“夜”背景下的视觉对应物相比可能具有不同的相关性。具体来说对于 m 个目标领域中的 n 个类别分别计算每个领域的类别原型和文本嵌入并将它们组合成扩展的原型矩阵和。然后通过以下公式优化领域一致性损失 该损失函数通过最小化不同领域中类别原型与文本嵌入之间的相关性差异确保模型在不同领域之间保持一致的语义表示。
3. 文本驱动校正器Text-Driven Rectifier, TDR
在第二阶段微调时模型利用模拟的目标域特征来微调分割头使模型能够有效地适应目标域。然而模拟特征与实际目标域特征之间可能存在差异。考虑这些差异至关重要因为直接使用模拟特征可能会导致分割头与真实目标分布的偏差从而在调整后产生更差的分割性能。 因此我们建议通过利用 CLIP 获得的文本嵌入来解决这个问题这些嵌入实际上类似于真实目标域中的分布。通过采用这些文本嵌入作为先验我们可以纠正模拟过程从而鼓励模拟特征与目标特征更紧密地对齐。纠正有利于适应。具体来说TDR 的目标是校正模拟特征与真实目标特征之间的偏差。具体来说在模型的第二阶段微调阶段通过以下公式对模拟特征进行校正 其中 和是通过文本嵌入经过线性层得到的目标特征的均值和标准差β 是一个可学习的校正因子用于控制校正的程度。通过这种方式TDR 使模拟特征更接近真实目标特征从而提高模型的泛化能力。
4.总结
训练过程
Stage-1通过 PIN 生成模拟特征并使用 HCA 和 DCRL 进行对齐。Stage-2通过 TDR 校正模拟特征并微调分割头以优化分割任务的性能。
推理过程 对目标域图像进行特征提取、模拟特征生成、文本驱动校正和分割预测。
结论 ULDA框架的有效性通过在多种目标领域上的实验验证ULDA框架在零样本领域适应任务中取得了具有竞争力的性能甚至在某些情况下超越了需要领域ID的方法证明了其在实际应用中的可行性和优越性。 方法的实用性ULDA方法在推理阶段不引入额外的计算成本保持了模型的实用性和效率使其更适合于实际的领域适应任务。 对领域适应任务的推动ULDA的提出为领域适应任务提供了一种新的思路即通过文本描述来适应目标领域而无需直接访问目标领域的图像数据这为解决实际应用中的数据稀缺问题提供了一种有效的解决方案。