制作展示型网站公司哪家好,广州网站设计哪个好,厦门网站建设推广哪家好,陈晓佳 中信建设有限责任公司【目标检测】对DETR的简单理解 文章目录 【目标检测】对DETR的简单理解1. Abs2. Intro3. Method3.1 模型结构3.2 Loss 4. Exp5. Discussion5.1 二分匹配5.2 注意力机制5.3 方法存在的问题 6. Conclusion参考 1. Abs
两句话概括#xff1a;
第一个真正意义上的端到端检测器最…【目标检测】对DETR的简单理解 文章目录 【目标检测】对DETR的简单理解1. Abs2. Intro3. Method3.1 模型结构3.2 Loss 4. Exp5. Discussion5.1 二分匹配5.2 注意力机制5.3 方法存在的问题 6. Conclusion参考 1. Abs
两句话概括
第一个真正意义上的端到端检测器最早将transformer应用到计算机视觉领域方法之一
2. Intro
基于Conv目标检测方法如YOLO在精度和速度上都已经非常优秀。 但是这些传统算法往往需要prior和post-process流程导致额外的计算量需要复杂的代码来部署模型。 prior例如YOLOv5使用聚类算法提前计算anchor boxes post-process例如NMS去除多余预测框 DETR则完全不需要这些从输入到输出一气呵成简洁优雅。
3. Method
3.1 模型结构
网络架构如图所示同样非常简单
一个backbone提取特征两个transformer encoder将特征图展平成序列加上位置编码使用self-attn进一步处理使得每个特征向量关注到合适的特征表示decodercross-attnquery在特征序列上“逐个问询是否存在目标目标在哪有多大”使得query学习到目标的位置信息和特征表示 两个FFN对query的信息进行“解压”得到预测结果类别和边界框。
3.2 Loss
分类负log损失 bbox:GIoUIoU损失 L1损失
4. Exp
除了AP75和APsDETR在同样的参数规模下都超过了Faster RCNN但是计算量和检测速度更慢。
5. Discussion
5.1 二分匹配 匈牙利算法可参考[3] 由于DETR默认使用100个queries即模型输出100个预测框而实际目标数量只有几个因此需要通过二分匹配算法得到最终的预测结果简单来说就是要把query和gt一一对应如果一张图像中有5个gt则在100个queries中通过匹配算法筛选出5个最接近gt的预测结果。
5.2 注意力机制
如图是decoder的注意力可视化结果可以看到query更关注于物体的边边角角为目标定位提供了有效信息。
5.3 方法存在的问题
使用self-attn太长的特征序列会导致爆炸的计算量因此输入图像也不能太大transformer收敛速度慢训练时间长小目标效果一般
6. Conclusion
DETR为目标检测提供了简洁有效的端到端检测框架且达到了主流检测器的水平但仍然有较多改进空间。
参考
[1] https://arxiv.org/abs/2005.12872 [2] https://www.bilibili.com/video/BV1ZT411D7xK/ [3] https://blog.csdn.net/qq_54185421/article/details/125992305