博物馆网站建设经费请示,网站经常修改好不好,备案的网站名,房产网站开发方案分类目录#xff1a;《深入理解深度学习》总目录 另一种策略是惩罚神经网络中的激活单元#xff0c;稀疏化激活单元。这种策略间接地对模型参数施加了复杂惩罚。我们已经在《深入理解深度学习——正则化#xff08;Regularization#xff09;#xff1a;参数范数惩罚》中讨…分类目录《深入理解深度学习》总目录 另一种策略是惩罚神经网络中的激活单元稀疏化激活单元。这种策略间接地对模型参数施加了复杂惩罚。我们已经在《深入理解深度学习——正则化Regularization参数范数惩罚》中讨论过 L 1 L^1 L1惩罚如何诱导稀疏的参数即许多参数为零或接近于零。另一方面表示的稀疏描述了许多元素是零或接近零的表示。表示的正则化可以使用参数正则化中同种类型的机制实现。表示的范数惩罚正则化是通过向损失函数 J J J添加对表示的范数惩罚来实现的。我们将这个惩罚记作 Ω ( h ) \Omega(h) Ω(h)。和之前一样我们将正则化后的损失函数记作 J ~ \tilde{J} J~  J ~ ( θ ; X , y )  J ( θ ; X , y )  α Ω ( h ) , \tilde{J}(\theta; X, y)  J(\theta; X, y)  \alpha\Omega(h), J~(θ;X,y)J(θ;X,y)αΩ(h), 
其中 α ∈ [ 0 , ∞ ] \alpha\in[0, \infty] α∈[0,∞]权衡范数惩罚项的相对贡献越大的 α \alpha α对应越多的正则化。正如对参数的 L 1 L^1 L1惩罚诱导参数稀疏性对表示元素的 L 1 L^1 L1惩罚诱导稀疏的表示  Ω ( h )  ∣ ∣ h ∣ ∣ 1  ∑ i h u \Omega(h)||h||_1\sum_ih_u Ω(h)∣∣h∣∣1i∑hu 
当然 L 1 L^1 L1惩罚是使表示稀疏的方法之一。其他方法还包括从表示上的Student-t先验导出的惩罚和KL散度惩罚这些方法对于将表示中的元素约束于单位区间上特别有用。Lee et al.(2008) 和Goodfellow et al. (2009) 都提供了正则化几个样本平均激活的例子。 
还有一些其他方法通过激活值的硬性约束来获得表示稀疏。例如正交匹配追踪Orthogonal Matching Pursuit通过解决以下约束优化问题将输入值 x x x编码成表示 h h h  arg  min  h , ∣ ∣ h ∣ ∣ 0  k ∣ ∣ x − W h ∣ ∣ 2 \arg\min_{h,||h||_0k}||x - Wh||^2 argh,∣∣h∣∣0kmin∣∣x−Wh∣∣2 
其中 ∣ ∣ h ∣ ∣ 0 ||h||_0 ∣∣h∣∣0是 h h h中非零项的个数。当 W W W被约束为正交时我们可以高效地解决这个问题。这种方法通常被称为OMP-k通过 k k k指定允许的非零特征数量。Coates and Ng证明OMP-1可以成为深度架构中非常有效的特征提取器。含有隐藏单元的模型在本质上都能变得稀疏。 
参考文献 [1] Lecun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015 [2] Aston Zhang, Zack C. Lipton, Mu Li, Alex J. Smola. Dive Into Deep Learning[J]. arXiv preprint arXiv:2106.11342, 2021.