当前位置: 首页 > news >正文

海兴做网站莱州教体局网站

海兴做网站,莱州教体局网站,任丘建设网站制作,wordpress缩略图模糊论文笔记 资料 1.代码地址 https://github.com/iBelieveCJM/pseudo_label-pytorch 2.论文地址 3.数据集地址 论文摘要的翻译 本文提出了一种简单有效的深度神经网络半监督学习方法。基本上#xff0c;所提出的网络是以有监督的方式同时使用标记数据和未标记数据来训练的…论文笔记 资料 1.代码地址 https://github.com/iBelieveCJM/pseudo_label-pytorch 2.论文地址 3.数据集地址 论文摘要的翻译 本文提出了一种简单有效的深度神经网络半监督学习方法。基本上所提出的网络是以有监督的方式同时使用标记数据和未标记数据来训练的。对于未标记的数据只要选取具有最大预测概率的类别就可以使用伪标签就好像它们是真标签一样。这实际上等同于熵正则化。它支持类之间的低密度分离这是半监督学习通常假设的先验条件。在MNIST手写数字数据集上利用去噪自动编码器和丢弃这种简单的方法在标签数据非常少的情况下优于传统的半监督学习方法。 1背景 所有训练深度神经网络的成功方法都有一个共同点它们都依赖于无监督学习算法。大多数工作分两个主要阶段进行。在第一阶段无监督预训练所有层的权重通过这种分层的无监督训练来初始化。在第二阶段微调在有监督的方式下使用反向传播算法用标签全局地训练权值。所有这些方法也都以半监督的方式工作。我们只需要使用额外的未标记数据来进行无监督的预训练。 我们提出了一种更简单的半监督方式训练神经网络的方法。基本上所提出的网络是以有监督的方式同时使用标记数据和未标记数据来训练的。对于未标记的数据只需选取每次权重更新具有最大预测概率的类就像使用真标签一样使用伪标签。该方法原则上可以结合几乎所有的神经网络模型和训练方法。 这种方法实际上等同于熵正则化(Granvalet等人2006年)。类概率的条件熵可用于类重叠的度量。通过最小化未标记数据的熵可以减少类概率分布的重叠性。它支持类之间的低密度分离这是半监督学习的常见先验假设。 2论文的创新点 3 论文方法的概述 3.1 思路 伪标签是未标记数据的目标类就好像它们是真标签一样。我们只选取对每个未标记样本具有最大预测概率的类别。 y i ′ { 1 if  i argmax i ′ f i ′ ( x ) 0 otherwise y_i^{\prime}\begin{cases}1\text{if }i\text{argmax}_{i}f_{i}(x)\\0\text{otherwise}\end{cases} yi′​{10​if iargmaxi′​fi′​(x)otherwise​我们在Dropout的微调阶段使用伪标签。用标记和未标记的数据同时以有监督的方式训练预先训练的网络。对于未标记的数据每次权值更新重新计算的伪标签被用于相同的监督学习任务的损失函数。 由于有标签数据和无标签数据的总数有很大不同并且它们之间的训练平衡对网络性能非常重要因此总体损失函数为 L 1 n ∑ m 1 n ∑ i 1 C L ( y i m , f i m ) α ( t ) 1 n ′ ∑ m 1 n ′ ∑ i 1 C L ( y i ′ m , f i ′ m L\frac{1}{n}\sum_{m1}^{n}\sum_{i1}^{C}L(y_{i}^{m},f_{i}^{m})\alpha(t)\frac{1}{n}\sum_{m1}^{n}\sum_{i1}^{C}L(y_{i}^{\prime m},f_{i}^{\prime m} Ln1​m1∑n​i1∑C​L(yim​,fim​)α(t)n′1​m1∑n′​i1∑C​L(yi′m​,fi′m​ 其中n是SGD的已标记数据中的批次数 n ′ n\prime n′用于未标记数据 f i m f^m_i fim​是已标记数据中 m m m个样本的输出单位 y i m y^m_i yim​是标签 f i ′ m f^{\prime m}_{i} fi′m​用于未标记数据 y i ′ m y^{\prime m}_{i} yi′m​是未标记数据的伪标签 α ( t ) \alpha(t) α(t)是平衡它们的系数。 α ( t ) \alpha(t) α(t)的合理调度对网络性能非常重要。如果 α ( t ) \alpha(t) α(t)太高即使对于已标记的数据也会干扰训练。而如果 α ( t ) \alpha(t) α(t)太小了我们就不能利用未标记数据的好处。此外 α ( t ) \alpha(t) α(t)缓慢增加的确定性退火过程有望帮助优化过程避免较差的局部极小值从而使未标记数据的伪标签尽可能类似于真实标签。 α ( t ) { 0 t T 1 t − T 1 T 2 − T 1 α f T 1 ≤ t T 2 α f T 2 ≤ t \alpha(t)\begin{cases}0tT_1\\\frac{t-T_1}{T_2-T_1}\alpha_fT_1\leq tT_2\\\alpha_fT_2\leq t\end{cases} α(t)⎩ ⎨ ⎧​0T2​−T1​t−T1​​αf​αf​​tT1​T1​≤tT2​T2​≤t​在 α f {\alpha}_f αf​3、 T 1 T_1 T1​100、 T 2 T_2 T2​600的情况下不进行预训练在DAE的情况下 T 1 T_1 T1​200、 T 2 T_2 T2​800。 3.2 Pseudo-Label为什么有效 半监督学习的目标是利用未标记的数据来提高泛化性能。聚集学习假设指出决策边界应位于低密度区域以提高泛化性能。 最近提出的使用流形学习训练神经网络的方法如半监督嵌入和流形切线分类器都利用了这一假设。半监督嵌入使用基于嵌入的正则化来提高深度神经网络的泛化性能。由于数据样本的邻居通过嵌入惩罚项与样本具有相似的激活因此高密度区域的数据样本更有可能具有相同的标签。流形切线分类器鼓励网络输出对低维流形方向的变化不敏感。因此同样的目的也达到了。 3.3 Entropy Regularization 在最大后验估计的框架下熵正则化是一种从未标记数据中获益的方法。该方案通过最小化未标记数据的类概率的条件熵来支持类之间的低密度分离而不需要对密度进行任何建模。 H ( y ∣ x ′ ) − 1 n ′ ∑ m 1 n ′ ∑ i 1 C P ( y i m 1 ∣ x ′ m ) log ⁡ P ( y i m 1 ) H(y|x)-\frac{1}{n}\sum_{m1}^{n}\sum_{i1}^{C}P(y_{i}^{m}1|x^{m})\operatorname{log}P(y_{i}^{m}1) H(y∣x′)−n′1​m1∑n′​i1∑C​P(yim​1∣x′m)logP(yim​1) 其中 n ′ n^\prime n′是未标记数据的数目 C C C是类数 y i m y^m_i yim​是第 m m m个未标记样本的未知标记 x ′ m x^{\prime m} x′m是第m个未标记样本的输入向量熵是类重叠的一种度量。随着类重叠的减少决策边界上的数据点密度变得更低。 MAP估计被定义为后验分布的最大值 C ( θ , λ ) ∑ m 1 n log ⁡ P ( y m ∣ x m ; θ ) − λ H ( y ∣ x ′ ; θ ) C(\theta,\lambda)\sum_{m1}^n\log P(y^m|x^m;\theta)-\lambda H(y|x;\theta) C(θ,λ)m1∑n​logP(ym∣xm;θ)−λH(y∣x′;θ) 其中n是标记数据的数目 x m x^m xm是第 m m m个标记样本 λ λ λ是平衡两项的系数。通过最大化已标记数据(第一项)的条件对数似然和最小化未标记数据(第二项)的熵可以获得更好的泛化性能。 图1示出了t-SNE 在MNIST测试数据(未包括在未标记数据中)的网络输出的2D嵌入结果。神经网络用600个已标记数据以及60000个未标记数据和伪标签进行训练。虽然在两种情况下训练误差为零但通过使用未标记数据和伪标签进行训练测试数据的网络输出更接近于1-OFK码换言之(17)的熵被最小化。 表2显示了(17)的估计熵。虽然两种情况下已标记数据的熵都接近于零但通过伪标签训练未标记数据的熵变低另外测试数据的熵也随之降低。这使得分类问题变得更容易甚至对于测试数据也是如此并且使得决策边界处的数据点密度更低。根据聚类假设我们可以得到更好的泛化性能。 3.4 Training with Pseudo-Label as Entropy Regularization 我们的方法通过对未标记数据和伪标签的训练鼓励预测的类别概率接近K中的1-of-code从而使公式(17)的熵最小。因此我们的方法等价于熵正则化。(18)的第一项对应于(15)的第一项(18)的第二项对应于(15)的第二项α对应于λ。
http://www.dnsts.com.cn/news/42542.html

相关文章:

  • 请别人做网站的缺点百度申请完域名怎么建设网站
  • 网站建设需要哪些资质知乎 php网站开发书籍_
  • 企业做网站须要注意些什么如何用电脑主机做网站主机
  • 网站开发招标参数外包网站会自己做原型吗
  • 确定网站设计公司简报网站建设80hoe
  • 学院网站建设管理规章制度WordPress 固定域名
  • 怎么建公司网站账号如何做盗版电影网站
  • 哈尔滨网站建设一薇ls15227方维网络的服务范围
  • 南昌县城乡规划建设局官方网站wordpress如何修改布局
  • 素材动图网站南京怎样优化关键词排名
  • 最常见企业网站公司有哪些网站seo外包价格
  • 找工作一般上什么网站比较好ps案例教程网站
  • 珠海网站搭建搜索引擎优化服务公司哪家好
  • 做网站建设工资多少电子政务 和网站建设总结
  • 深圳民治网站建设开发公司会议提纲
  • 无锡手机网站开发wordpress 博客搭建
  • 平凉网站建设软件生成器
  • 成都市金堂县网站建设百度智能云
  • 如何建立手机网站永久免费空间免备案
  • 企业网站用什么域名网站程序 不能创建文件夹
  • 专门做尾单的那个网站叫啥承包工地的网站
  • 有视频做的很好的网站吗关于网站开发相关法律条款
  • 可以建设彩票网站吗微信模板编辑器
  • 高端网站开发哪里好wordpress 模板添加
  • wordpress大前端整站一个人可以建设几个网站
  • 手机公司网站建设长春建设公司网站
  • 邢台做wap网站费用建网站资阳哪家强?
  • 大王庄网站建设公司描述网站建设规范方法
  • 网站建设 架构互联网设计公司排名
  • 秦皇岛北京网站建设网站建设网站优化