自定义优定软件网站建设,电商网站费用,菜户营做网站,网站设计需要哪些前言 参考#xff1a; 《数字图像处理与机器视觉》 第五章 空间域图像增强#xff0c; 图像卷积#xff1a; 空间域图像增强 图像增强是根据特定需要突出一副图像中的某些信息#xff0c;同时削弱或去除 某些不需要信息的处理方法,其主要目的是是的处理后的图像对某种特定的…前言 参考 《数字图像处理与机器视觉》 第五章 空间域图像增强 图像卷积 空间域图像增强 图像增强是根据特定需要突出一副图像中的某些信息同时削弱或去除 某些不需要信息的处理方法,其主要目的是是的处理后的图像对某种特定的应用来说 比原始图像更适用。因此这类处理时为例某种特殊应用去改善图像的质量处理 的结果更适合于人的观察或机器的识别系统 目录 1 卷积 2 LeNet-5 3 Conv2d 一 卷积 卷积神经网络的核心是卷积层 1.1 卷积定义 对图像的每一个点x,y执行以下操作 1 对预先定义的以x,y为中心点的领域内的像素运算 2 将1中的运算结果作为x,y)点新的响应 用数学公式来表示 图像 卷积核 如 下图 1.2 卷积网络中的卷积 在 传统的 数字图像处理里面卷积核权重系数大小是固定的
深度学习里面需要预先定义一下通过训练得到里面权重系数 kernel channel卷积核的个数kernel size卷积核大小stride滑动的步伐决定滑动多少步可以到图像边缘padding填充系数填0 或边缘像素的扩展总长能被步长整除。
1.3 input
N图片的个数channel图片的通道如RGB c3, 灰度图 c1width图片的宽度height图片的高度 例 二 LeNet-5 输入 [1,1,28,28]
112828图像个数网络输入的通道数灰度图1图像宽图像高 LeNet-5 共包含 8 层
C1 卷积层 [6,1,5,5]
m6channel1width5height5网络输出的通道数: 卷积核个数网络输入的通道数图像的通道卷积核的宽卷积核的高 卷积核的channel 数必须和输入的channel 一致 偏置 bias: 每个卷积核对应一个bias,共6个 输出6张28*28特征图 C1 有 156 个可训练参数每个滤波器 5x525 个 bunit 参数和一个 bias 参数一共 6 个滤波器共(5x51)x6156个参数共 156x(28x28)122,304个连接。 S2 采样层 有 6 个 14x14 的特征图。特征图中的每个单元与 C1 中相对应特征图的 2x2 邻域相连接。S2层每个单元的 4 个输入相加乘以一个可训练参数再加上一个可训练偏置。每个单元的 2x2 感受野并不重叠因此 S2 中每个特征图的大小是 C1 中特征图大小的 1/4行和列各 1/2。 2*2池化层 输出 6个14*14 特征图 S2 层有 12个6x1112个可训练参数和 588014x14 2 21 65880个连接。 C3 卷积层 卷积核
m16channel1width5height5输出的通道数输入的通道数卷积核的宽卷积核的高 输出 16个10*10的feature map S4 下采样层 由 16 个 5x5 大小的特征图构成。特征图中的每个单元与 C3 中相应特征图的 2x2 邻域相连接跟 C1 和 S2 之间的连接一样。S4 层有 32 个可训练参数每个特征图1个因子和一个偏置16x1132和 200016 2 21x5 x52000个连接。 C5 卷积层 卷积核
m120channel1width1height1卷积核个数图像的通道卷积核的宽卷积核的高 输出 有 120 。由于 S4 层特征图的大小也为 5x5 同滤波器一样故 C5 特征图的大小为 1x15-511这构成了 S4 和 C5 之间的全连接。 F6 全连接层 有 84 个单元之所以选这个数字的原因来自于输出层的设计
与 C5 层全相连。有 1016484x(120x(1x1)1)10164个可训练参数。如同经典神经网络F6 层计算输入向量和权重向量之间的点积再加上一个偏置。然后将其传递给 sigmoid 函数产生单元i的一个状态。
最后输出层由欧式径向基函数Euclidean Radial Basis Function单元组成每类一个单元每个有 84 个输入。 三 Conv2d函数详解 def __init__(self,in_channels: int,out_channels: int,kernel_size: _size_2_t,stride: _size_2_t 1,padding: _size_2_t 0,dilation: _size_2_t 1,groups: int 1,bias: bool True,padding_mode: str zeros # TODO: refine this type):参数意义in_channels网络输入的通道数RGB 3 out_channels 网络输出的通道数, 卷积核的个数kernel_size卷积核的大小stride是卷积过程中移动的步长。默认情况下是1。一般卷积核在输入图像上的移动是自左至右自上至下padding填充默认是0填充dilationdilation扩张。一般情况下卷积核与输入图像对应的位置之间的计算是相同尺寸的也就是说卷积核的大小是3X3那么它在输入图像上每次作用的区域是3X3这种情况下dilation0。当dilation1时表示的是下图这种情况groups分组。指的是对输入通道进行分组如果groups1那么输入就一组输出也为一组。如果groups2那么就将输入分为两组那么相应的输出也是两组。另外需要注意的是in_channels和out_channels必须能整除groups。bias偏置参数该参数是一个bool类型的当biasTrue时表示在后向反馈中学习到的参数b被应用padding_mode填充模式 padding_mode‘zeros’表示的是0填充 例 # -*- coding: utf-8 -*-Created on Mon May 15 15:31:26 2023author: chengxf2
import torch
import torch.nn as nndef main():img torch.randn(10,3,28,28)conv nn.Conv2d(3,16,4,stride2,padding0)output conv(img)print(output.shape)
main()out: torch.Size([10, 16, 13, 13]) 输入 10张RGB 图片图片大小28*28 [10,3,28,28] 卷积核 [16,3,4,4] 输出 输出图像的宽度高度利用下面的公式 13 torch 里面通过F 函数提供另一种更加直接的方式定义了 卷积核的shape 参考
卷积神经网络简介
卷积神经网络基础知识
CNN中的stride、kernel、padding计算 - 知乎
https://blog.csdn.net/jiaoyangwm/article/details/80011656/
Conv2d函数详解Pytorch_phil__naiping的博客-CSDN博客