外国网站打开很慢,孝感网站开发的公司,网页版微信登录入口文件传输,源代码网站怎么建设目录 1、模型架构1.1高效混合编码器1.1.1 尺度内特征交互模块AIFI1.1.2 跨尺度特征融合CCFM 1.2IoU感知查询选择总结 DETRs在实时目标检测中击败YOLO 问题#xff1a;DETR的高计算成本#xff0c;实时检测效果有待提高
解决#xff1a;提出了一个实时的目标检测器
具体来说… 目录 1、模型架构1.1高效混合编码器1.1.1 尺度内特征交互模块AIFI1.1.2 跨尺度特征融合CCFM 1.2IoU感知查询选择总结 DETRs在实时目标检测中击败YOLO 问题DETR的高计算成本实时检测效果有待提高
解决提出了一个实时的目标检测器
具体来说设计了一个高效的混合编码器通过解耦尺度内的交互和跨尺度融合来有效处理多尺度特征并提出IoU感知查询选择通过提供更高质量的初始对象查询编码器进一步提高性能。
了解的知识
NMS是目标检测后处理算法用于消除检测器输出的重叠预测框。操作中低于阈值的框直接过滤掉当两个预测框的LoU超过阈值时得分较低的预测框被舍弃迭代执行这一过程直到所以类别的盒子被处理完毕。因此NML的执行时间主要取决于预测框个数和两个阈值超参数。
1、模型架构 rt - detr概述。我们首先利用主干{S3, S4, S5}的最后三个阶段的特性作为编码器的输入。高效的混合编码器通过尺度内特征交互(AIFI)和跨尺度特征融合模块(CCFM)将多尺度特征转化为图像特征序列。iou感知的查询选择被用来选择固定数量的图像特征作为解码器的初始目标查询。最后带辅助预测头的解码器迭代优化目标查询生成框和置信度评分。
1.1高效混合编码器
提高训练收敛速度性能–多尺度特征可变形注意力–减少计算量
虽然注意力机制改进降低了计算开销但输入序列长度的增加—》编码器计算量增大阻碍了DETR的实时实现
高级特征是从具有丰富语义信息的低级特征中提取出来的。直观上看多尺度特征间的交互是多余的。 两个模块组成即基于注意力的尺度内特征交互模块(AIFI)和基于cnn的跨尺度特征融合模块(CCFM)。
1.1.1 尺度内特征交互模块AIFI
AIFI减少了计算冗余该变量仅在S5上进行尺度内交互。
作者认为对语义特征更丰富的高层特征进行自注意操作可以捕捉图像中概念实体的关系用于后续的检测识别。同时认为低级特征与高级特征有交互重复和混淆的风险所以认为低级特征的尺度内交互是不必要的。ap值提高了0.4%快了35%速度
1.1.2 跨尺度特征融合CCFM
在融合路径中插入多个卷积层组成的融合块融合块的作用是将相邻的特征融合成一个新的特征 融合块包含N个RepBlocks两条输出通过主元素添加的方式进行融合过程如下 Attn是多头自注意力reshape与flaten是逆操作
1.2IoU感知查询选择
DETR中的目标查询是一组可学习的嵌入由解码器优化并通过预测头映射到分类分数和边界框。然而这些目标查询很难解释和优化因为它们没有明确的物理意义。
但由于分类分数和位置置信度分布的不一致部分预测盒分类分数高但与GT盒不接近导致分类分数高、IoU分数低的预测盒被选中而分类分数低、IoU分数高的预测盒被丢弃。这降低了检测器的性能。
为了解决这一问题我们提出了基于IoU感知的查询选择方法通过约束模型在训练过程中对IoU分数高的特征产生高分类分数对IoU分数低的特征产生低分类分数。因此模型根据分类分数选择的前K个编码器特征对应的预测框其分类分数和IoU分数都很高。我们重新制定探测器的优化目标如下: 其中:y‘和y分别表示预测和真实标记的图像y’ {c‘, b’}和y {c, b} c和b分别表示类别和边界框。我们将IoU分数引入到分类分支的目标函数中(类似于VFL[47])来实现对阳性样本分类和定位的一致性约束。
总结
问题目前的实时检测器的推理速度被NMS延迟
为了避免NMS造成的延迟我们设计了一个实时端到端检测器其中包括两个关键的改进组件可以有效地处理多尺度特征和IoU感知查询选择的混合编码器改进了对象查询的初始化。