淘宝网站建设可行性分析报告,怎么做网站后期维护,营销型网站制作msgg,阿里巴巴官网下载论文#xff1a;https://arxiv.org/abs/2403.10191 代码#xff1a;https://github.com/FoundationVision/GenerateU 感想 目标检测任务已经逐渐从闭集场景专项开集场景#xff0c;在LLM加持下#xff0c;速读越来越快。该方法仍然依赖于预先定义的类别#xff0c;这意味着… 论文https://arxiv.org/abs/2403.10191 代码https://github.com/FoundationVision/GenerateU 感想 目标检测任务已经逐渐从闭集场景专项开集场景在LLM加持下速读越来越快。该方法仍然依赖于预先定义的类别这意味着它无法完全摆脱先验知识。尽管在论文中提到不需要确切对象类别知识。 整体脑图 摘要 本文介绍了一种新的目标检测方法——生成式开放性物体检测Generative Open-Ended Object Detection旨在解决在推理阶段没有确切对象类别知识的情况下进行物体检测的问题。该方法将物体检测视为一个生成问题并提出了名为GenerateU的简单框架可以检测密集物体并以自由形式生成它们的名称。具体来说该框架使用Deformable DETR作为区域提议器并使用语言模型将视觉区域翻译为对象名称。实验结果表明GenerateU具有强大的零样本检测性能在LVIS数据集上与GLIP等开放词汇物体检测方法相比表现相当。 论文速读 论文方法 方法描述 该论文提出了一种名为GenerateU的开放世界目标检测模型其主要由两个组件组成开放世界目标检测器和语言模型。开放世界目标检测器使用了Deformable DETR作为基础模型并在训练过程中不依赖于对象类别信息而是采用了开放世界检测方式即类无关的目标检测器将匹配的查询分类为前景或背景。同时该模型还引入了一个伪标签方法来丰富标签多样性。 方法改进 与传统的基于图像和文本配对数据集的多模态预训练模型不同如图1该模型直接将开放世界目标检测器与语言模型链接起来并激活两者可训练的模块。具体来说该模型使用了一个编码器-解码器结构的语言模型(如图2)其中视觉表示作为输入传递给编码器而相关的文本则作为解码器的生成目标。此外该模型还引入了一个区域-词对齐损失函数以帮助学习区分区域特征。 解决的问题 该论文提出的GenerateU模型旨在解决开放世界目标检测中的问题即将已知物体识别出并提供它们相应的类别名称同时还能够检测到未知物体并对其进行命名。通过采用开放世界检测方式和区域-词对齐损失函数等技术手段该模型可以提高开放世界目标检测的准确性和鲁棒性。此外该模型还利用伪标签方法来增加标签多样性从而进一步提高了模型的性能。 论文实验 本文主要介绍了针对开放领域的目标检测任务的模型GenerateU并对其进行了多个对比实验以验证其性能和效果。 首先文章比较了使用LVIS作为预训练数据的方法与只使用VG作为训练数据的方法在零样本下的表现。结果表明即使只使用VG作为训练数据GenerateU也能表现出良好的性能这说明预先定义好的类别名称可能并不必要尤其是当模型已经学习了大量的视觉概念时。此外引入额外的图像文本对数据集可以进一步提高模型的表现。 其次文章将GenerateU与其他方法进行了比较包括GLIP等完全监督的方法。结果显示GenerateU在零样本下与GLIP相比具有相当的性能但不需要访问类别名称来进行推理。 此外文章还进行了其他一些实验来评估模型的性能和效果。例如通过使用不同的文本编码器如CLIP和BERT来计算相似度分数以及使用METEOR评估生成的文本质量。另外作者还尝试了不同大小的backbone和beam search的不同设置并评估了region-word alignment loss的效果。 最后文章提供了定性的可视化结果展示了GenerateU比ground truth更广泛地识别物体的能力。 总的来说本文通过对GenerateU的多个对比实验证明了其在开放领域目标检测任务中的优越性能和效果。