当前位置：首页 > news >正文

官方网站建设网站被加黑链

news 2026/2/26 18:16:06

官方网站建设,网站被加黑链,网站域名地址,做网站需要数据库么大名鼎鼎的YOLO物体检测算法如今已经出现了V8版本#xff0c;我们先来了解一下它前几代版本都做了什么吧。本篇文章介绍v1-v3#xff0c;后续会继续更新。一、节深度学习经典检测方法概述1.1 检测任务中阶段的意义我们所学的深度学习经典检测方法 #xff0c;有些是单阶段的…大名鼎鼎的YOLO物体检测算法如今已经出现了V8版本我们先来了解一下它前几代版本都做了什么吧。本篇文章介绍v1-v3后续会继续更新。一、节深度学习经典检测方法概述1.1 检测任务中阶段的意义我们所学的深度学习经典检测方法有些是单阶段的有些是两阶段的one-stage单阶段YOLO系列two-stage两阶段Faster-rcnn、Mask-Rcnn系列单阶段我们进行物体检测简单来说只需要的到四个值就可以了(图片中某个物体的左上x1y1、右下x2y2角的坐标)这四个值x1、y1、x2、y2我们通过回归任务就可完成。只通过一个CNN网络提取特征不去做其它的映衬然后通过回归获得预测结果。两阶段同样对于输入的图片通过CNN提取特征最终结果依旧是获取猫的位置只不过这里多了一个RPN区域建议网络生成了多个预选框我们最后在这些预选框里选择出所需要的结果。1.2 不同阶段算法优缺点分析one-stage最核心的优势速度非常快适合做实时检测任务但是缺点也是有的效果通常情况下不会太好 two-stage速度通常较慢5FPS但是效果通常还是不错的非常实用的通用框架MaskRcnn建议熟悉下前面说到过了像是YOLO特征提取后直接回归步骤单一所以速度会比较快但是效果稍差而像是Mask-Rcnn多了一步预选处理效果不错但是速度会比较慢。一般视频任务中我们要求实时监测所以应该选用YOLO当然FPS也是不固定的总之网络越复杂效果越好速度越慢反之那就反之。1.3 YOLO指标计算map指标综合衡量检测效果单看精度或recall不行吗精度检测出来的框与实际是否吻合召回率有没有一些框没有检测到二者一般相互矛盾一个高了另一个就会低所以单看某一个指标无法判断效果的好坏。我们通常用mAP指标进行衡量。IOU交集和并集的比值如图蓝色的是真实值/标记值橙色是预测值IOU越高越接近1效果越好说明越“重合”。我们希望橙色的预测框与蓝色的标记框越接近越重合越好(精度越高越好)同时我们希望把图片中需要检测出来的东西全部检测出来(召回率越高越好)比如上图如果还需要检测窗户等。1.4 MAP指标计算基于置信度阈值来计算例如分别计算0.90.80.7 置信度如检测的是人脸置信度表示这是一个人脸的可能性。比所选置信度小的框就不要了。如置信度选0.9时对于上面三张图片TP1 FP0 FN2则Precision1/1Recall1/3 即对于第一张图片是人脸也被检测出来了TP1第二三张图片是人脸没被检测出来(漏检)FN2。如何计算AP呢需要把所有阈值0-1都考虑进来MAP就是所有类别的平均。上图纵坐标是精度横坐标是召回率可见精度高的时候召回率比较低召回率高的时候精度比较低。MAP即红线下方所围成的面积(取的最大值)即右侧A1A2A3A4当然我们希望MAP越接近1(一个大矩形)越好。二、YOLO-V1整体思想与网络架构2.1 YOLO算法整体思路解读YOLO-V1经典的one-stage方法You Only Look Once你只看一次名字就已经说明了一切把检测问题转化成回归问题一个CNN就搞定了可以对视频进行实时检测应用领域非常广核心思想预测一张图片上有哪些个物体比如下图有狗、自行车、汽车。假设这张图片大小为7x7一共49个格子我们要求这49个格子自己预测在自己这个格子上的是什么物体。比如图片左侧的狗落在图片的一个区域之中但我们只关心它的中心点落在哪里如图红色的格子它就负责预测这条狗有一个物体落在红色格子上面了并且红色格子还是中心点。49个格子预测自己所代表的是什么或者说物体落到了以这个格子为中心点的话这个格子需要把这个物体给预测出来。如图红色的格子去做预测但它也不知道狗长什么样子但是有一些经验值比如一些物体是长方形的一些物体是正放心的h1w1,h2w2(如上图黄色的框)显然对于上图长方形的框更好一点(有真实值长方形的IOU更高派他上场)我们把候选框进行微调即回归任务找出最合适的h和w并找出起始位置(v1xyhw)。由于有很多个格子就会产生很多个中心点坐标和候选框但有一些框起来的不是一个物体(背景)所以我们还需要一个置信度confidence来确定框起来的是不是物体不是(小于)那就去掉。简单来说V1版本关键词四个偏移量中心点、两种候选框(选其一)x、y和h、w。一个置信度的值:判断是否一个物体是的话进行回归微调四个偏移量2.2 网络架构解读V1版本中测试时输入大小为448*448*3(训练时用224*224 当时计算机性能可能比较差V2后进行改进。)相对来说是个固定值进行特征提取得到7*7*1024的特征图进行全连接再reshape后得到7*7*30。其中7*7就是前面说的那个“格子”实际上一个格子代表这部分感受野的信息/特征等。前面提到V1版本有两个候选框h1w1x1y1和c1h2w2x2y2和c2这样就有了5510个值7*7*30这30里除了这10个值剩下的20则是20分类20个概率值。这里B是框的个数2C是类别个数20(7*7) * (2*520)2.3 位置损失计算位置损失对于每个格子的每两个候选框选择IOU最大的那个计算真实值的预测值之间的差异(xywh)。有些物体比较大wh差不太多就可以但对于小的物体wh相差一定的值就会不好因此这里将wh进行了开根号处理(数值较小的时候相对敏感一些)。置信度误差一张图片的背景要多于前景我们要分类讨论它预测的是前景还是背景。我们让真实值前景置信度为1背景为0。如果一个候选框和真实框的IOU大于一定阈值如0.5我们认为它是一个前景希望它的confidence接近1(它毕竟不是一个真实框有自己的IOU)IOU越大越好。小于0.5或者没有的时候便是背景置信度为0。(自己的置信度-真实置信度)²前景直接算背景加权重参数。分类误差交叉熵计算。2.4 NMS非极大值抑制即我们最后会得到好多个框(经过IOU大于一定阈值筛选后)先按置信度进行排序选置信度最大的别的就不要了。2.5 优缺点分析优点快速简单缺点每个Cell只预测一个类别如果重叠无法解决小物体检测效果一般长宽比可选的但单一小物体一般检测不到B1,B2候选框经验值一般是大的。假如多个物体重合在一起如狗和猫前后在一起一个格子预测结果出来是狗就预测不到猫了。多标签处理也不好做如狗、斑点狗哈士奇等。三、YOLO-V2改进细节整体的网络架构和思想相较于V1没有变化改进了网络在实现过程中的小细节。加入上表那些细节后mAP由63.4提升到了78.6。3.1 YOLO-V2-Batch NormalizationV2版本舍弃Dropout卷积后全部加入Batch Normalization网络的每一层的输入都做了归一化收敛相对更容易经过Batch Normalization处理后的网络会提升2%的mAP从现在的角度来看Batch Normalization已经成网络必备处理 3.2 YOLO-V2-更大的分辨率 V1训练时用的是224*224测试时使用448*448可能导致模型水土不服V2训练时额外又进行了10次448*448 的微调使用高分辨率分类器后YOLOv2的mAP提升了约4% 3.3 YOLO-V2-网络结构 DarkNet网络结构(借鉴了VGG Restnet)实际输入为416*416(为什么不是448要被32整除才行希望结果是奇数有实际中心点。)。没有FC(全连接)层(容易过拟合、参数多训练慢)5次降采样(2*2池化共缩小了32倍)最后得到13*13(416/32)的特征图(第一代版本7*7小了点先验框也是。)。3*3的卷积借鉴了VGG参数比较少感受野比较大。1*1卷积节省了很多参数在1*1卷积这步只改变了特征图的个数。 ps1*1卷积可以用来降维/升维增加非线性特征(激活函数)等注上图output那一列仅供参考实际上输入416输出13。之前要全连接全连接reshape3.4 YOLO-V2-聚类提取先验框faster-rcnn系列选择的先验比例都是常规的但是不一定完全适合数据集 K-means聚类中的距离有的框大有的框小使用欧氏距离的话大的框产生差异的情况也会比较大所以使用IOU进行距离度量IOU1时效果越好d0。之前学的YOLO-V1里面B2但正常的物体不就是什么长方形正方形这两种形状faster-rcnn这种2-stage的方法用了9种先验框YOLO-V2版本一想自己也多加几种吧。faster-rcnn里使用如1:1 1:2 2:1三种比例的框每种比例分不同大小各3个共9个框。YOLO-V2中使用聚类在某数据集如COCO中进行先验框提取比如Kmean中的K5那就分出5堆长宽比不同的先验框每堆长宽相近比如300200一堆316271一堆110115一堆...。这样更加合适一些。上图左边横坐标是Kmeans中k的取值纵坐标是平均IOU。K越小堆之间差异越大K越大堆之间差异越小越“细腻”一般选K5。右边就是那5个堆。V1版本B2V2版本K5从两种框提升到了5种框。3.5 YOLO-V2-Anchor Box通过引入anchor boxes使得预测的box数量更多13*13*n跟faster-rcnn系列不同的是先验框并不是直接按照长宽固定比给定上图可见有无先验框对mAP没怎么变(略微下降)。因为先验框多了也就是说框起来的虽然多了但不一定框的都对。但是召回率上升了也就是查全率提升图像中但凡有真实值标记出来的被检测出的可能性更大一点毕竟框多了。3.6 YOLO-V2-Directed Location Predictiobbox中心为(xp,yp)宽和高为(wp,hp)则。如tx1,则将bbox在x轴向右移动wptx−1则将其向左移动wp这样会导致收敛问题(乱移动)模型不稳定尤其是刚开始进行训练的时候。V2中并没有直接使用上面的偏移量而是选择相对grid cell的偏移量(这样无论怎么偏移都不会偏移出中心点这个格子)计算公式为其中为sigmoid函数这里用sigmoid函数是为了让预测框的中心位置位于grid中这种对偏移量的约束一定程度上保证了训练时间减少加快收敛。相对grid cell左上角那个点的距离用sigmoid压缩到了0-1之间因为一个格子就是一个单位不能超过1Cx、Cy是指这个左上角的点在13*13格子里的坐标这里是11。例如预测值(σtx,σty,tw,th)(0.2, 0.1, 0.2, 0.32)anchor框为 (注这都是特征图grid cell的不是原始图像)3.7 YOLO-V2-Fine-Grained Features到最后一层感受野太大了小目标可能会丢失需要融合之前的特征。以YOLO-V2的DarkNet19为例不光光要最后一层的13*13*1024还要把中间层的特征图拿出来比如中间的26*26*512可以把它改写成4*13*13*512这样和13*13*1024一进行叠加就能得到既有大小目标通吃的13*13*3072的特征图了。3.8 YOLO-V2-Multi-Scale因为都是卷积没有全连接所以输入大小可以不固定。一般照一张图片进行检测如果把它resize成一定大小效果没有以下方法好一些一定iterations之后改变输入图片大小即多尺度。这样就让网络有了一定的适应能力既能在大的分辨率检测到也能在小的分辨率检测到。 3.9 总结以上各点结合在一起就是YOLO-V2进行的细节改进整体的结构相较于V1思想还是没有变的都是one-stage方法最后经过回归得到结果。四、YOLO-V3核心网络模型不像V2改进了许多细节V3版本主要针对一点网络架构的升级即特征提取得更好一些。上图横坐标表示预测时间纵坐标表示mAP值。YOLO-V3最大的改进就是网络结构使其更适合小目标检测特征做的更细致融入多持续特征图信息来预测不同规格物体先验框更丰富了3种scale每种3个规格一共9种softmax改进预测多标签任务4.1 多scale为了能检测到不同大小的物体设计了3个scale。之前我们在V2中提到特征融合比如把中间某层的特整图和最后的特征图整合到一起达到“大小目标通吃”的效果但是这样直接融合可能会把一些“擅长的东西淹没”。现在我们来想一想由于感受野的存在不同层的特征图虽都是特征提取但实际细分做的工作还是不同的比如前几次卷积更注重纹理轮廓颜色等中间注重其它特征后面的注重整体特征(感受野大)。我们把负责不同工作的特征图放到一起不如把它们分开来如提取轮廓的都放到一起注重整体的放到一起... 这样“分工明确”效果会更好一些。比如上图13*13的特征图感受野大那就去预测大物体26*26的特征图感受野中等去预测中等目标52*52的特征图感受野小去预测小目标。只不过不是把这些大小的特征图单拿出来在预测中目标时要参考大特征图在预测小目标时要参考中特征图。至于BOX1、BOX2、BOX3则是三种比例共9种都不一样下面会讲解。scale变换经典方法这里简单介绍3种法1. 图像金字塔resize输入图片的大小通过改变分辨率来得到不同大小的结果13*13、26*26、52*52...该方法可行但在注重速度的YOLO上还是差了点。法2.对不同的特征图分别利用该方法也可行但不如下面的好。法3. 不同特征图融合后进行预测(YOLO-V3核心思想)因为13*13的感受野大可以把大目标识别好但中等的“眼界”不如大的小的“眼界”也不如中等的因此不如让“老年人”帮帮中年人让“中年人”帮帮小孩。这里进行了特征融合。把13*13的特征图通过上采样变成26*26的与原本26*26的进行融合。“中年人”帮小孩同理。4.2 残差连接从今天的角度来看基本上所有的网络架构都用上了残差连接的方法。V3中也用了resnet的思想堆叠更多的层来进行特征提取。在过去14年VGG出现人们以为卷积层数越多越好但实际上通过测试发现发现越学越差比如16层的时候要比30的好。因为无法保证卷积的时候在某特征图之上继续提取特征效果会更好。后来15还是16年诞生Resnet 残差网络如果新加进来的这层效果不好我把它的权重设为0 不用这一层。即好的我们要不好的不要。4.3 核心网络架构-DarkNet53可以看到里面加入了残差块。没有池化和全连接全部卷积。下采样通过stride为2实现。3中scale更多先验框。看上图右下角部分得到13*13*75结果(这里75根据不同任务设置的我们主要看前面的)它前面13*13*1024特征图还进行了26*26*256的上采样与26*26*512的特征图进行融合得到26*26*768的融合特征图在经过卷积变换-26*26*256-输出26*26*75。完成“老人给中年人提建议”。中年人给小孩提建议同理小孩融合了中年人和老年人的建议。在V1中网格7*7V2中网格为13*13V3则是有3种13*13、26*26、52*52以13*13为例输出结果13*13*3*85其中13是网格数3是3种比例的先验框BOX12385里分为4个xywh坐标值、1个置信度(前景还是背景)剩下的80则是任务的类别数量。26*26、52*52同理。4.4 先验框设计V1中2(B2)个V2中5(K5)个V3中9(3*3)个。3种scale每种3个规格一共9种如下图黄色表示标签蓝色表示先验框的大小4.5 softmax层改进物体检测任务中可能一个物体有多个标签logistic激活函数来完成这样就能预测每一个类别是/不是即概率越接近1损失越接近0概率越接近0损失越无穷大。这样比如检测猫输出结果的数组中猫的概率0.7狗的概率0.3加菲猫的概率0.8幼年猫的概率0.7... 我们可以设置一个阈值来进行筛选。4.6 总结YOLO-V3最大的改进就是网络结构使其更适合小目标检测特征做的更细致融入多持续特征图信息来预测不同规格物体先验框更丰富了3种scale每种3个规格一共9种softmax改进预测多标签任务

查看全文

http://www.dnsts.com.cn/news/15650.html