重庆做网站做得好的公司,高级网站设计效果图,注册网站查询官网,app开发公司被骗报警深度学习过程中#xff0c;若模型出现了过拟合问题体现为高方差。有两种解决方法#xff1a;
增加训练样本的数量采用正则化技术 增加训练样本的数量是一种非常可靠的方法#xff0c;但有时候你没办法获得足够多的训练数据或者获取数据的成本很高#xff0c;这时候正则化技… 深度学习过程中若模型出现了过拟合问题体现为高方差。有两种解决方法
增加训练样本的数量采用正则化技术 增加训练样本的数量是一种非常可靠的方法但有时候你没办法获得足够多的训练数据或者获取数据的成本很高这时候正则化技术就可以有效的帮助你避免模型过拟合。接下来本文就来讲解一下深度学习中的正则化起作用的原理文中以L2正则化为例。 有关正则化的基础知识可以回看我之前的文章哦
【机器学习300问】18、正则化是如何解决过拟合问题的http://t.csdnimg.cn/vX2mP
一、包括L2正则化项的损失函数长什么样 在损失函数如均方误差、交叉熵误差等的基础上L2正则化引入了一个与权重向量W相关的正则化项通常表示为 符号解释包含正则化项的总损失函数代表未加正则化项的原始损失函数这通常是对每个样本的损失的平均值如交叉熵损失或均方误差损失分别表示网络中的权重和偏置参数正则化项的系数这是一个超参数用于控制正则化的强度训练样本的数量L2正则化项通常称为权重衰减项。是所有权重矩阵的Frobenius范数的平方的和。Frobenius范数是一个矩阵范数等同于矩阵元素的平方和的平方根 表示第层权重矩阵的Frobenius范数的平方而是网络层的总数
二、L2正则化的作用机制
1权重缩小 在优化过程中由于L2正则化项的存在当模型试图降低原始损失时同时需要考虑减小权重的平方和。这会促使模型在训练过程中选择较小的权重值避免权重值过大导致模型对训练数据的过度敏感。
2防止过拟合 较小的权重值意味着模型对单个特征的影响不会过于突出减少了模型对训练数据中噪声和个别样本特性的过度学习有利于提高模型在未见过数据上的泛化能力。
三、L2正则化到底是怎么起作用的嘛
1微观上对激活函数的影响 激活函数tanh双曲正切函数的输出范围在-1到1之间形状类似于Sigmoid函数但更为平缓且在两端饱和区的梯度更接近于0。公式就不赘述了之前的文章详细介绍过了我们在这里只关注函数的图像从图像上理解就可以了。 用表示那么我们发现只要非常小如果只涉及少量参数我们就只利用了双曲正切函数的线性状态如下图所示 当L2正则化惩罚过大时模型的权重被迫保持较小的值也就是说也会很小。对于tanh激活函数意味着
tanh函数接近线性斜率为1较小的权重导致输入信号大部分位于tanh函数的线性区域内使得模型的非线性表达能力减弱趋向于线性模型。过强的L2正则化可能会限制tanh激活函数充分发挥其非线性变换的能力尤其是对于需要捕捉复杂非线性关系的任务模型可能无法有效学习数据的深层次结构。 在之前的文章中讲到过如果激活函数都是线性函数那么无论你的神经网络有多深节点有很多都相当于一个简单的线性模型。这就是为什么L2正则化通过约束权重的大小间接降低了模型的复杂度。
2宏观上对神经网络结构的影响 现在我们假设一种很极端的情况正则化参数非常大因此对权重的惩罚非常大导致权重很小小到约等于0。因为公式我们如果不考虑偏置。就会得到这样一来从神经网络的在该节点的输出。意味着这个神经元死亡了。如果用图来表示的话就是 显然模型的复杂度被降低了提高模型的泛化能力。