当前位置: 首页 > news >正文

苏州信网网站建设技术有限公司怎么创建自己的购物平台

苏州信网网站建设技术有限公司,怎么创建自己的购物平台,广告设计图片网站,今天安阳最新消息YOLOv5 一、输入端 1. Mosaic数据增强#xff1a; CutMix 数据增强#xff1a;随机生成一个裁剪框Box#xff0c;裁剪掉A图中的相应位置#xff0c;然后用B图相应位置的ROI放到A中被裁剪的区域中形成新的样本。采用加权求和的方式计算损失#xff0c;将A区域中被cut掉的…YOLOv5 一、输入端 1. Mosaic数据增强 CutMix 数据增强随机生成一个裁剪框Box裁剪掉A图中的相应位置然后用B图相应位置的ROI放到A中被裁剪的区域中形成新的样本。采用加权求和的方式计算损失将A区域中被cut掉的位置随机填充训练集中其他数据的区域像素值分类结果按一定比例分配。 Mosaic数据增强对四张图片进行拼接每一张图片都有其对应的框框将四张图片拼接之后就获得一张新的图片同时也获得这张图片对应的锚框之后将这样这张新的图片传入到神经网络当中学习相当于一次传入四张图片进行学习。 论文中说这极大丰富了检测物体的背景且在标准化BN计算的时候一次会计算四张图片的数据主要用于小目标检测 2. 自适应锚框计算 在输入图像中采样大量的区域判断这些区域中是否包含感兴趣的目标并调整区域边界从而更准确地预测目标的真实边界框ground-truth bounding box。 不同的模型使用的区域采样方法可能不同。 锚框以每个像素为中心生成多个缩放比和宽高比aspect ratio不同的边界框。 3. 自适应图片缩放 1、原理输入网络的尺寸统一缩放到同一个尺寸时检测效果会更好train中放入的图并不经过letterbox而是检测的时候使用letterbox。如果是简单的使用resize很有可能就造成了图片信息的丢失所以提出了letterbox自适应图片缩放技术。 letterbox的主要思想是尽可能的利用网络感受野的信息特征。比如在YOLOV5中最后一层的Stride5即最后一层的特征图中每个点可以对应原图中32X32的区域信息 2、思想图片变换比例一致指的是长宽的收缩比例应该采用相同的比例。有效利用感受野信息则是指对于收缩后不满足条件的一边用灰白条填充至可以被感受野整除。 二、backbone 1、Focus层现已弃用 在获得输入后首先利用focus层将图像的宽高信息转换为通道信息。具体做法是在一张图片中每隔一个像素获得一个像素这时获得四个独立的特征层之后进行特征层的堆叠。目的是减少参数量增加运行速度。 在YOLOv5最新版本下Focus层已经改为普通的64×6464 \times 6464×64卷积层。如图 2、Conv2D_BN_SiLU卷积块 其中SiLU激活函数是sigmoid和ReLU的改进版其具有无上界有下界、平滑和单调的特性。 f(x)x×sigmoid(X)f(x)x \times sigmoid(X) f(x)x×sigmoid(X) 部分版本也采用LeakyReLU激活函数。 3、bottleneck building block图左和bottleneck图右都是在Resnet提出的。其中building block是Resnet34提出的bottleneck是Resnet50提出的。在bottleneck中1×1的卷积层的作用是减少参数量。经过实验证明bottleneck即减少了参数量优化了计算由保持了原有的精度。如果网络层数少的话选用building block。而如果网络层数很深为了减少计算量选用bottleneck。 shortcut处选择的是add而不是concat。作用是使特征图相加维持通道数不变。 4、 CSPLayer YOLOv5的CSPNet结构将原输入分成两支图b两支分别进行卷积操作使得通道数减半。之后一个分支进行Bottleneck × N操作然后concat两个分支进行通道数的堆叠。可以抽象的理解为CSPlayer有一个大的“残差边”。 这样的操作使得输入CSPLayer的特征与输出的通道数一致目的是使模型习得更多的特征。 其中Backbone的CSPLayer结构为 CBL为ConvBNleakyReLUCBS为ConvBNSiLU 如图其将输入先分成两支一支先经过CBL块后期改为CBS再经过多个残差结构(Bottleneck × N)在经过一个卷积调整通道数。另一个分支直接进行卷积调整通道数。之后对这两个分支按通道进行堆叠最后在经过一个CBL后期改为CBS。 Neck的CSPLayer结构为 Neck层的CSPLayer将中间的残差结构换成了2 × X个CBL后期为CBS。主要原因是Neck层比较浅。 5、SPPBottleneck 传统的SPP又称金字塔池化可以将任意大小的特征图转换成固定大小的特征向量。但是在YOLOv5中SPPBottleneck主要作用是通过不同池化核大小的最大池化进行特征提取提高网络的感受野。其中shotcut处为concat因此应保证每次池化后map大小不变。 SPPF在YOLOv5后期提出了SPPF结构起将并行的最大层化改为了串行的最大池化层虽然对结构进行了修改但是目的完全一样。 其中串行的2个5×5和1个9×9是等价的串行的3个5×5和1个13×13是等价的。并行和串行的效果一样但串行的效率更高。 三 、Neck层 如图YOLOv5提取三个特征层进行目标检测分别位于中间层、中下层和底层。三个特征曾的尺寸分别为(80,80,256)(80, 80, 256)(80,80,256)、(40,40,512)(40, 40, 512)(40,40,512)和(20,20,1024)(20, 20 ,1024)(20,20,1024)。 特征金字塔可以将不同shape的特征层进行特征融合有利于提取更好的特征具体融合方式如图。其中上采样采用插值下采样采用卷积。 FPN语义信息PAN定位信息 通常认为深层的特征层携带有较强的语义特征信息和较弱的定位信息浅层的特征层有较强的位置信息和较弱的语义信息。FPN就是把深层的语义特征传到浅层从而增强多个尺度上的语义表达。而PAN则把浅层的定位信息传导到深层增强多个尺度上的定位能力。 如图FPN是自底向上将高层的语义特征传递上去对整个金字塔进行增强但是只增强了语义信息而没有增强位置信息通过在FPN后加上一个自顶向下的PAN对位置信息进行补充将顶层的位置信息传递下去。 四、 YOLO Head 通过特征金字塔获得了三个加强特征分别为(20,20,1024)(20, 20, 1024)(20,20,1024)、(40,40,512)(40, 40, 512)(40,40,512)、(80,80,256)(80, 80, 256)(80,80,256)之后将这三个加强特征传入YOLO Head获得预测结果。 对于每一个特征层首先使用一个卷积调整通道数最终的通道数与数据集的类别数相关。其中每一个特征层的每一个特征点存在3个锚框。 假设使用的是voc数据集类别是20种最后的维度为753×(4120) 其中3代表三个锚框4代表每一个锚框的回归参数1代表该特征点是否包含物体该特征点是否为背景20用于判断该特征点的种类。 假设使用的是coco数据集类别为80则最后的通道数为2553×(4180)。 五、 预测 1、 解码 假设数据集为coco数据集获得的特征层预测结果为(N,20,20,255)(N, 20, 20, 255)(N,20,20,255)、(N,40,40,255)(N, 40, 40, 255)(N,40,40,255)、(N,80,80,255)(N, 80, 80, 255)(N,80,80,255)之后将255拆分成3个85对应3个锚框的85个参数。 将(N,20,20,255)(N, 20, 20, 255)(N,20,20,255)特征层reshape成(N,20,20,3,85)(N, 20, 20, 3, 85)(N,20,20,3,85)之后对每个特征点对应的三个锚框进行解码操作 其中pwp_wpw​、php_hph​为锚框的长宽cxc_xcx​、cyc_ycy​为预测锚框对应的单元格离图片左上角的距离。(tx,ty,tw,th)(t_x, t_y, t_w, t_h)(tx​,ty​,tw​,th​)是预测偏移量。σ\sigmaσ为sigmoid激活函数。 图一为YOLOv2/3/4的锚框回归计算公式图二为YOLOv5的锚框回归计算公式。 宽高计算作者认为原始的yolo /darknet框方程式存在严重缺陷宽度和高度虽然永远0,但不受限制因为它们只是outeinoute^{in}outein这种指数的运算很危险易导致梯度不稳定训练难度加大使用(2σ(tw))2\left(2\sigma\left( t_w \right) \right)^2(2σ(tw​))2既能够保证宽高0也能对宽高限制最大值为anchor框宽高的4倍。偏移计算因为YOLOv5的正样本定义与YOLO之前系列的不同故在此公式的计算也不相同。关于正负样本在”训练“处进行介绍。 2、得分筛选与非极大抑制 得分筛选与非极大抑制的过程可以概括如下 找出该图片中得分大于门限函数的框。在进行重合框筛选前就进行得分的筛选可以大幅度减少框的数量。对种类进行循环非极大抑制的作用是筛选出一定区域内属于同一种类得分最大的框对种类进行循环可以帮助我们对每一个类分别进行非极大抑制。根据得分对该种类进行从大到小排序。每次取出得分最大的框计算其与其它所有预测框的重合程度重合程度过大的则剔除。 六、训练 1、 LOSS组成 网络的损失与网络的预测组成相同分为Reg部分特征点的回归参数、Obj部分该特征点是否包含物体、Cls部分特征点物体的种类。 2、 正样本匹配 从IOU匹配变成shape匹配先计算gt与9个锚框的长宽比如果长宽比小于设定阈值说明该gt和对应的锚框匹配一个gt可能与几个锚框均能匹配上因为同之前YOLO一样YOLOv5有三层网络9个锚框, 从小到大每3个锚框对应一层网络所以一个gt可能在不同的网络层上做预测训练大大增加了正样本的数量当然也会出现gt与所有锚框都匹配不上的情况这样gt就会被当成背景不参与训练。 3、 筛选框匹配 gt框与锚框匹配后得到锚框对应的网络层的grid看gt中心点落在哪个grid上不仅取该grid中和gt匹配的锚框作为正样本还取相邻的的两个grid中的anchor为正样本。同时gt不仅与一个锚框匹配如果跟几个锚框都匹配上而且锚框不在同一个网络层上所以可能有3-9个正样本增大正样本数量。 4、 LOSS计算 1、DIOU Loss: 好的目标框函数应该考虑三个重要几何因素重叠面积、中心点距离和长宽比如何最小化预测框和目标框之间的归一化距离DIOU_Loss DIOU_Loss考虑了重叠面积和中心点距离当目标框包裹预测框的时候直接度量2个框的距离因此DIOU Loss收敛的更快。 问题没有考虑长宽比如1、2、3目标框包裹预测框本来DIOU_Loss可以起作用但是预测框的中心点的位置都是一样的因此按照DIOU Loss的计算公式三者的值都是相同的。 2、CIOU LossCIOU Loss在DIOU Loss的基础上增加了一个影响因子将预测框和目标框的长宽比都考虑进去了。 CIOU_Loss1−CIOU1−(IOU−Distance_22Distance_C2−v2(1−IOU)v)CIOU\_Loss 1-CIOU1-(IOU -\frac{Distance\_2^2}{Distance\_C^2}- \frac{v^2}{(1-IOU)v}) CIOU_Loss1−CIOU1−(IOU−Distance_C2Distance_22​−(1−IOU)vv2​) 其中vvv是衡量长宽比一致性的参数也可以定义为 v4π2(arctanwgthgt−arctanwPhP)2v\frac{4}{\pi^2}(arctan\frac{w^{gt}}{h^{gt}}-arctan\frac{w^P}{h^P})^2 vπ24​(arctanhgtwgt​−arctanhPwP​)2 这样CIOU Loss就将目标框回归函数应该考虑三个重要集合因素重叠面积、中心点距离、长宽比全都考虑进去了。 3、Obj部分由第正样本匹配部分可知道每个真实框对应的先验框所有真实框对应的先验框都是正样本剩余的先验框均为负样本根据正负样本和特征点的是否包含物体的预测结果计算交叉熵损失作为Obj部分的Loss组成。 4、 Cls部分由第三部分可知道每个真实框对应的先验框获取到每个框对应的先验框后取出该先验框的种类预测结果根据真实框的种类和先验框的种类预测结果计算交叉熵损失作为Cls部分的Loss组成。
http://www.dnsts.com.cn/news/104494.html

相关文章:

  • 做装修公司网站费用做网站用哪几个端口 比较好
  • 医疗网站模版广西网站建设建议
  • 重庆微网站开发公司网页版微信登录入口官网
  • 金融 网站 源码穿山甲广告联盟
  • 网站建设创业计划书模板范文郑州开发软件的公司
  • 社交网站开发难度北京电子商务网站制作
  • 义乌网站建设zisou8公司内部网站建设管理办法
  • 哪里网站建设便宜设计医院网站建设
  • 网站建设技术咨询协议购物网站怎么建立
  • 郑州企业网站建设公司东西湖建设局网站
  • 建网站多少钱 万户百度搜索数据
  • 网站不足之处正常成都建设网站
  • 网站标题分隔符网站备案核验单怎么填
  • 网站建设与管理pdf微信网站如何做
  • 网站建设公司专业开发北京网站家电企业展厅设计
  • 做学校网站的目的做网站需要哪些程序
  • app与手机网站的区别怎样弄一个自己的网站
  • 永川做网站做鞋子的招聘网站有哪些
  • 做网站代理工作安全吗苏州建设工程公司
  • 太原的网站搭建公司如何做影视网站
  • 做网站原型图用什么软件表白网页设计代码大全
  • 做空比特币的网站深圳市建设局科技处网站
  • 网站seo收费360网站在系统那里
  • 网站有标题网页制作教程pdf
  • 海口cms建站系统enfold wordpress汉化
  • 自助建站平台免费商务型企业网站建设
  • 大型网站开发语言排名高校网站建设情况报告范文
  • 做网站需要准备什么东西软文有哪几种类型
  • 哪个网站做农产品网站建设行业解决方案
  • 深圳企业营销型网站网站建设高端网页设计