wordpress启动命令,合肥seo网站推广费用,网站定制项目,文山专业网站建设公司IDC: Boost Text-to-Image Retrieval via Indirect and Direct Connections 摘要3 方法3.1 直接连接3.2 间接连接3.3 DLB 正则化 结论 发布时间#xff08;2024 LREC-COLING#xff09; 标题#xff1a;IDC#xff1a;通过间接和直接连接增强文本到图像的检索
摘要
本文2024 LREC-COLING 标题IDC通过间接和直接连接增强文本到图像的检索
摘要
本文知识蒸馏利用文本解码器模拟交叉模态交互
双编码器DE框架将图像和文本输入映射到一个协调的表示空间中并直接计算它们的相似度。而交叉注意CA框架在完成图像和文本的特征嵌入后进行模态交互然后输出相似度得分。对于批量查询请求或大查询集的场景后者更准确但前者更快。因此这项工作通过借鉴CA框架的优势找到了一种提高DE框架检索准确率的新方法。从图像字幕制作中汲取灵感我们在模型训练阶段引入文本解码器来模拟跨模态交互功能就像CA框架一样。文本解码器最终被丢弃使我们的模型与DE框架保持一致。最后为了保证训练的稳定性和防止过拟合我们修改了来自最后一个小批量的自我蒸馏并将其应用于检索领域。在MSCOCO和Flickr30K数据集上进行的大量实验验证了我们提出的方法的有效性。值得注意的是与 Flickr30K 数据集上最先进的方法相比我们的模型取得了有竞争力的结果
3 方法
1双流编码后的text 和 image 建立直接连接 2利用text decoder 分别与text和image建立非直接连接
3.1 直接连接
文本的两个掩码器 一个使用前向掩码掩码后面的内容 一个使用后向掩码掩码前面的内容
损失还是采用对比损失
3.2 间接连接
分开编码然后计算相似度的方式是直接连接 利用前向单词 图片–》解码后面的文本
3.3 DLB 正则化
结论
在本文中我们的目标是在保持文本到图像检索速度的同时提高其准确率。 具体来说我们使用文本解码器来模拟 CA 框架等模态之间的交互功能。以文本解码器为节点我们建立了间接连接以最小化标题特征与图像/文本特征之间的距离这有助于匹配相应的图像和文本。此外为了在训练阶段保持稳定性和一致性我们改进了 DLB 正则化使其适用于文本到图像检索领域。进行了广泛的消融研究在 MSCOCO 和 Flickr30K 数据集上的实验结果证明了所提出方法的有效性。特别是我们的模型在 Flickr30K 基准数据集上取得了最先进的结果。重现我们结果的代码可在 https://github.com/moment-ggw/IDC/tree/main 上找到。在不久的将来我们计划设计一种更直接的方法允许将知识从间接连接提炼到直接连接