做网站如何自己寻找客户,泰国vps,不同类型企业网站的对比分析,百度移动网站生成简单记录学习~
一、传统 ITC Loss 的局限性 One-Hot Label 的缺陷 传统对比学习依赖严格对齐的图文对#xff0c;通过交叉熵损失#xff08;如 softmax 归一化的相似度矩阵#xff09;强制模型将匹配的图文对相似度拉高#xff0c;非匹配对相似度压低11。但 one…简单记录学习~
一、传统 ITC Loss 的局限性 One-Hot Label 的缺陷 传统对比学习依赖严格对齐的图文对通过交叉熵损失如 softmax 归一化的相似度矩阵强制模型将匹配的图文对相似度拉高非匹配对相似度压低11。但 one-hot 标签仅允许当前批次中的正样本参与学习导致负样本覆盖范围有限且难以处理噪声数据。 负样本不足问题 若仅依赖当前批次的负样本模型容易过拟合到局部特征无法充分挖掘跨模态语义的多样性关联。 二、动量编码器与队列机制的协同优化 动量编码器的稳定特征生成 动量模型Momentum Encoder参数通过指数移动平均EMA更新滞后于主模型当前编码器其输出的 CLS 特征更稳定且噪声更少。队列维护Queue动态存储历史批次中动量模型生成的图像和文本特征扩展负样本数量如数千至数万级。 双重相似度计算 主模型计算当前批次图像和文本的 CLS 特征与队列中的历史特征计算相似度矩阵用于传统的交叉熵损失。动量模型计算当前批次经过动量编码器处理后与队列特征再次计算相似度生成更稳定的伪目标分布。优化目标通过 KL 散度损失迫使主模型的相似度分布逼近动量模型的分布提升鲁棒性。 三、机制的核心优势 扩展负样本范围 队列机制引入大量历史特征作为负样本避免模型仅依赖当前批次的局部数据增强跨模态语义的泛化能力。 噪声数据鲁棒性 动量模型生成的伪目标分布具有滞后性和平滑性能过滤噪声数据中的错误对齐信号提供更可靠的监督信息。 语义关联的多样性 模型通过动量模型发现潜在的正样本关联如相似但非严格匹配的图文对促使文本能描述更丰富的图像特征图像也能对应更多样的文本表达。 四、与传统 ITC Loss 的对比
维度传统 ITC Loss结合伪目标的 ITC Loss负样本来源仅当前批次当前批次 动态维护的历史队列噪声鲁棒性低直接依赖原始标签高动量模型过滤噪声语义多样性有限依赖人工对齐增强挖掘潜在跨模态关联监督信号稳定性不稳定受当前参数波动影响稳定动量模型提供滞后性特征 通过动量编码器队列机制模型不仅扩展了负样本范围还利用滞后稳定的伪目标分布捕捉潜在的正样本关联从而弥补传统 ITC Loss 的缺陷实现更鲁棒、更丰富的跨模态对齐。这一机制是多模态预训练如 ALBEF、BLIP的核心创新之一。