毕业答辩企业网站开发的问题,深圳市网络公司,微信网站域名备案成功后怎么做,excel做公司的小网站文章目录 前言1、出发点2、方法2.1.训练阶段2.1.1.文本特征提取器2.1.2.图像特征提取器 2.2.推理阶段 3、实验总结 前言 本文介绍篇来自北航的ECCV2024的开放词汇论文#xff1a;Lami-detr#xff0c;开源地址。
1、出发点 现有的开放词汇方法大多都借助了VLM比如Clip的零样… 文章目录 前言1、出发点2、方法2.1.训练阶段2.1.1.文本特征提取器2.1.2.图像特征提取器 2.2.推理阶段 3、实验总结 前言 本文介绍篇来自北航的ECCV2024的开放词汇论文Lami-detr开源地址。
1、出发点 现有的开放词汇方法大多都借助了VLM比如Clip的零样本泛化能力但这会存在两个问题1Clip的提取的文本特征缺少具有深度的语言描述和视觉知识2容易过度拟合到训练集类别上泛化到新检测类别时效果不好。 为了说明上述两个问题作者用一副图进行说明 1图a中直接将类别名称喂入CLip得到特征向量并进行聚类发现将fireboat和“fireweed”聚类到一起说明clip追求了单词字母上相似性忽视了语义信息显然对泛化不好 2图b中将类别名称喂给T5语言模型得到嵌入向量并进行聚类发现将外表相似的“海豚”和“海狮”分到了两个不同的簇这显然对OVD任务也不太好因为OVD假如在海豚上训练我们希望模型学到外观特征白色肚皮等这有助于在测试阶段泛化找到海狮。而不是过拟合到海豚这个类别上所以直接用T5提取语言向量也不太好。 3图c中首先用GPT得到类别名称的外观描述比如海豚白色肚皮a啥的然后在经过T5模型聚类则得到的分类簇就合理的多。 下面看作者如何具体实现的。
2、方法 这里简单介绍下OVD任务模型在 C B C_B CB上训练然后在 C N C_N CN上评测且 C B 和 C N C_B和C_N CB和CN没有交集。
2.1.训练阶段 在训练阶段如上图所示其实是个双流网络1基于Detr架构的视觉提取器2文本特征提取器。这里作者以cat进行释义在测试阶段会与cat相似的tiger进行测试。
2.1.1.文本特征提取器 这里先介绍下文本提取器也就是如何模拟图c中实现的 先用GPT生成每个类别描述然后经过T5得到特征向量之后执行Kmeas就能够将cat和tiger这类视觉上相似的类别聚集在一起然后采样了负样本采样:采样除cat和tiger的其余四个物体作为负样本。 注意这里我只是表达意思没有具体黏贴原论文的公式因为这篇论文给人读起来有点儿跳脱一会儿train一会儿test。
2.1.2.图像特征提取器 这里采用了两阶段的Detr结构在经过Encoder后执行了TopN操作 其中 τ c l s \tau_{cls} τcls就是clip提取的文本特征向量跟 f i f_i fi计算cos相似度取TopN。 之后作者将 q j q_j qj进行了语义融合 即累加了clip的语义信息也累加了T5的Visual Concept信息。
2.2.推理阶段 在推理阶段也是双流结构图像特征阶段基本没变化主要介绍下文本提取部分 如上图所示在推理阶段引入了混淆类别Prompt如何区分出来cat假如老虎也在图中。然后经过GPT和T5得到视觉嵌入向量以此来增强网络的判别区分能力。 之后跟F-VLM类似借助 V L M _ s c o r e VLM\_score VLM_score来校正 S _ d e t s c o r e S\_detscore S_detscore。这部分感兴趣读者可参考F-VLM论文精读。 3、实验 这个看起来效果确实惊艳尤其在 A P r AP_r APr提升上。
总结 本篇工作出发点是好的发现clip的text embed不是太好的一个嵌入之后借助GPT来生成概念丰富表达并通过采样负类别来增强判别能力同时保留了视觉相似特征以便于保留模型发现新的类别能力。但感觉读起来还是晕晕乎乎的行文有点儿迷。