当前位置: 首页 > news >正文

模仿建设网站是侵权吗wordpress做多重筛选

模仿建设网站是侵权吗,wordpress做多重筛选,国家企业信用系统,做个app好还是做网站好机器学习笔记之近似推断——从深度学习角度认识推断引言推断——基本介绍精确推断难的原因虽然能够表示#xff0c;但计算代价太大无法直接表示引言 本节是一篇关于推断总结的博客#xff0c;侧重点在于深度学习模型中的推断任务。 推断——基本介绍 推断(Inference\text{… 机器学习笔记之近似推断——从深度学习角度认识推断引言推断——基本介绍精确推断难的原因虽然能够表示但计算代价太大无法直接表示引言 本节是一篇关于推断总结的博客侧重点在于深度学习模型中的推断任务。 推断——基本介绍 推断(Inference\text{Inference}Inference)——我们并不陌生在介绍的每一个概率模型基本都涉及到推断问题。关于概率模型的三大核心问题分别是表示(Representation\text{Representation}Representation)推断学习(Learning\text{Learning}Learning)。我们从深度模型主要是深度生成模型所涉及的推断任务出发对推断进行描述。 首先是什么样的原因导致了推断这个任务的发生换句话说推断的动机是什么。 我们基于可观察的样本特征X\mathcal XX构建概率图模型。如果包含隐变量Z\mathcal ZZ而隐变量Z\mathcal ZZ绝大多数情况下没有物理意义它只是我们建模过程中人工设置出来的随机变量。 Z\mathcal ZZ一上来就是未知的但为了完善被构建的模型我们有必要了解隐变量Z\mathcal ZZ的特征信息。从哪里去了解/通过什么渠道去了解Z\mathcal ZZ? 从 样本X\mathcal XX。 当样本X\mathcal XX进入到模型后Z\mathcal ZZ会产生什么样的反映而这个反映就是隐变量Z\mathcal ZZ的特征信息即P(Z∣X)\mathcal P(\mathcal Z \mid \mathcal X)P(Z∣X)。而推断就是求解Z\mathcal ZZ特征信息P(Z∣X)\mathcal P(\mathcal Z \mid \mathcal X)P(Z∣X)的手段。因此推断的第一个动机就是推断自身。我们需要通过样本X\mathcal XX的渠道将Z\mathcal ZZ的特征信息描述出来。 关于推断的另一个动机来自于模型的学习任务。也就是说在模型参数θ\thetaθ的学习过程中可能存在 不可避免地使用推断。 一个经典例子就是受限玻尔兹曼机(Restricted Boltzmann Machine,RBM\text{Restricted Boltzmann Machine,RBM}Restricted Boltzmann Machine,RBM)。在受限玻尔兹曼机基于极大似然估计来求解对数似然梯度∇θ[log⁡P(v(i);θ)]\nabla_{\theta} \left[\log \mathcal P(v^{(i)};\theta)\right]∇θ​[logP(v(i);θ)]的过程中可将对数似然梯度描述为如下形式 需要注意的是针对某个观测样本v(i)v^{(i)}v(i),我们并没有将所有参数的对数似然梯度都求出来,仅求解的是v(i)v^{(i)}v(i)中某一随机变量vj(i)v_j^{(i)}vj(i)​与对应模型中隐变量h(i)h^{(i)}h(i)的某一随机变量hk(i)h_k^{(i)}hk(i)​之间的模型参数Wvj(i)⇔hk(i)\mathcal W_{v_j^{(i)} \Leftrightarrow h_k^{(i)}}Wvj(i)​⇔hk(i)​​的对数似然梯度。关于hj(i)h_j^{(i)}hj(i)​是一个服从‘伯努利分布’的随机变量完整推导过程见上述链接。 ∇θ[log⁡P(v(i);θ)]⇒∂∂Wvj(i)⇔hk(i)[log⁡P(v(i);θ)]P(hk(i)1∣v(i))⋅vj(i)⏟第一项−∑v(i)P(v(i))⋅P(hk(i)1∣v(i))⋅vj(i)⏟第二项\begin{aligned} \nabla_{\theta} \left[\log \mathcal P(v^{(i)};\theta)\right] \Rightarrow \frac{\partial}{\partial \mathcal W_{v_j^{(i)} \Leftrightarrow h_k^{(i)}}} \left[\log \mathcal P(v^{(i)};\theta)\right] \\ \underbrace{\mathcal P(h_k^{(i)} 1 \mid v^{(i)}) \cdot v_j^{(i)}}_{第一项} - \underbrace{\sum_{v^{(i)}} \mathcal P(v^{(i)}) \cdot \mathcal P(h_k^{(i)} 1 \mid v^{(i)}) \cdot v_j^{(i)}}_{第二项} \end{aligned}∇θ​[logP(v(i);θ)]​⇒∂Wvj(i)​⇔hk(i)​​∂​[logP(v(i);θ)]第一项P(hk(i)​1∣v(i))⋅vj(i)​​​−第二项v(i)∑​P(v(i))⋅P(hk(i)​1∣v(i))⋅vj(i)​​​​ 关于上述的对数似然梯度结果第一项中的P(hk(i)1∣v(i))\mathcal P(h_k^{(i)} 1 \mid v^{(i)})P(hk(i)​1∣v(i))就用到了后验概率的推断结果 推导过程详见受限玻尔兹曼机——推断任务(后验概率),这里nnn表示v(i)v^{(i)}v(i)中随机变量结点的个数。 P(hk(i)1∣v(i))Sigmoid(∑j1nWhk(i)⇔vj(i)⋅vj(i)ck(i))\mathcal P(h_k^{(i)} 1 \mid v^{(i)}) \text{Sigmoid}\left(\sum_{j1}^n \mathcal W_{h_k^{(i)}\Leftrightarrow v_j^{(i)}} \cdot v_j^{(i)} c_k^{(i)}\right)P(hk(i)​1∣v(i))Sigmoid(j1∑n​Whk(i)​⇔vj(i)​​⋅vj(i)​ck(i)​) 这明显是一个精确推断(Precise Inference\text{Precise Inference}Precise Inference)。相反同样使用推断的方式进行求解使用对比散度这种近似推断的方式加快采样速度。 由于这里重点描述的是‘推断’与‘学习任务’之间的关联关系这里就不展开求解了. 另一个经典例子就是EM\text{EM}EM算法(Expectation Maximization,EM\text{Expectation Maximization,EM}Expectation Maximization,EM)。它的E\text{E}E步可表示为如下形式 log⁡P(X;θ)∫ZQ(Z)⋅log⁡P(X∣θ)dZ∫ZQ(Z)log⁡P(X,Z;θ)Q(Z)dZ⏟ELBO{−∫ZQ(Z)log⁡P(Z∣X)Q(Z)dZ}⏟KL Divergence\begin{aligned} \log \mathcal P(\mathcal X ; \theta) \int_{\mathcal Z} \mathcal Q(\mathcal Z) \cdot \log \mathcal P(\mathcal X \mid \theta) d\mathcal Z \\ \underbrace{\int_{\mathcal Z} \mathcal Q(\mathcal Z) \log \frac{\mathcal P(\mathcal X,\mathcal Z;\theta)}{\mathcal Q(\mathcal Z)}d\mathcal Z}_{\text{ELBO}} \underbrace{\left\{- \int_{\mathcal Z} \mathcal Q(\mathcal Z) \log \frac{\mathcal P(\mathcal Z \mid \mathcal X)}{\mathcal Q(\mathcal Z)} d\mathcal Z\right\}}_{\text{KL Divergence}} \end{aligned}logP(X;θ)​∫Z​Q(Z)⋅logP(X∣θ)dZELBO∫Z​Q(Z)logQ(Z)P(X,Z;θ)​dZ​​KL Divergence{−∫Z​Q(Z)logQ(Z)P(Z∣X)​dZ}​​​ 其中X\mathcal XX是基于样本的随机变量集合Q(Z)\mathcal Q(\mathcal Z)Q(Z)是人为设定的、关于隐变量Z\mathcal ZZ的分布如果关于Z\mathcal ZZ的后验分布P(Z∣X)\mathcal P(\mathcal Z \mid \mathcal X)P(Z∣X)可求解即Q(Z)P(Z∣X)\mathcal Q(\mathcal Z) \mathcal P(\mathcal Z \mid \mathcal X)Q(Z)P(Z∣X)那么此时KL Divergence0\text{KL Divergence} 0KL Divergence0自然可以使用参数迭代逼近 的方式对模型参数θ\thetaθ进行迭代求解 其中的Q(Z)P(Z∣X)\mathcal Q(\mathcal Z) \mathcal P(\mathcal Z \mid \mathcal X)Q(Z)P(Z∣X)明显是一种对P(Z∣X)\mathcal P(\mathcal Z \mid \mathcal X)P(Z∣X)的精确推断。 {log⁡P(X;θ)ELBO(KL Divergence0)θ(t1)arg⁡max⁡θ[∫ZP(Z∣X,θ(t))log⁡P(X,Z;θ)dZ]\begin{cases} \log \mathcal P(\mathcal X;\theta) \text{ELBO} \quad (\text{KL Divergence} 0) \\ \theta^{(t1)} \mathop{\arg\max}\limits_{\theta} \left[\int_{\mathcal Z} \mathcal P(\mathcal Z \mid \mathcal X,\theta^{(t)}) \log \mathcal P(\mathcal X , \mathcal Z;\theta) d\mathcal Z\right] \end{cases}⎩⎨⎧​logP(X;θ)ELBO(KL Divergence0)θ(t1)θargmax​[∫Z​P(Z∣X,θ(t))logP(X,Z;θ)dZ]​ 但实际情况下关于隐变量Z\mathcal ZZ的后验分布P(Z∣X)\mathcal P(\mathcal Z \mid \mathcal X)P(Z∣X)可能无法精确求解此时Q(Z)\mathcal Q(\mathcal Z)Q(Z)的作用就是逼近当前迭代步骤中的P(Z∣X)\mathcal P(\mathcal Z \mid \mathcal X)P(Z∣X)使得当前迭代步骤的ELBO\text{ELBO}ELBO达到最大再将当前迭代步骤最优近似分布Q(Z)\mathcal Q(\mathcal Z)Q(Z)带回ELBO\text{ELBO}ELBO中从而求出当前迭代步骤的最优参数。这就是广义EM\text{EM}EM算法 相对于EM算法过程因P(Z∣X)\mathcal P(\mathcal Z \mid \mathcal X)P(Z∣X)自身无法精确求解的问题广义EM算法使得分布Q(Z)≈P(Z∣X)\mathcal Q(\mathcal Z) \approx \mathcal P(\mathcal Z \mid \mathcal X)Q(Z)≈P(Z∣X)这明显是一种近似推断。下面描述给定ttt时刻模型参数θ(t)\theta^{(t)}θ(t)的条件下求解t1t1t1时刻E\text{E}E步的近似分布Q^(t1)(Z)\hat {\mathcal Q}^{(t1)}(\mathcal Z)Q^​(t1)(Z)与t1t1t1时刻M\text{M}M步最优参数θ(t1)\theta^{(t1)}θ(t1)的过程。 {Q^(t1)(Z)arg⁡max⁡Q(Z)∫ZQ(Z)log⁡P(X,Z;θ(t))Q(Z)dZ⏟ELBO⇔arg⁡min⁡Q(Z)−∫ZQ(Z)log⁡P(Z∣X)Q(Z)dZ⏟KL Divergenceθ(t1)arg⁡max⁡θ∫ZQ^(t1)(Z)log⁡P(X,Z;θ)Q^(t1)(Z)dZ⏟ELBO\begin{cases} \hat {\mathcal Q}^{(t1)}(\mathcal Z) \mathop{\arg\max}\limits_{\mathcal Q(\mathcal Z)} \underbrace{\int_{\mathcal Z} \mathcal Q(\mathcal Z) \log \frac{\mathcal P(\mathcal X,\mathcal Z;\theta^{(t)})}{\mathcal Q(\mathcal Z)} d\mathcal Z}_{\text{ELBO}} \Leftrightarrow \mathop{\arg\min}\limits_{\mathcal Q(\mathcal Z)} \underbrace{- \int_{\mathcal Z} \mathcal Q(\mathcal Z) \log \frac{\mathcal P(\mathcal Z \mid \mathcal X)}{\mathcal Q(\mathcal Z)} d\mathcal Z}_{\text{KL Divergence}}\\ \theta^{(t1)} \mathop{\arg\max}\limits_{\theta} \underbrace{\int_{\mathcal Z} \hat {\mathcal Q}^{(t1)}(\mathcal Z) \log \frac{\mathcal P(\mathcal X,\mathcal Z ;\theta)}{\hat {\mathcal Q}^{(t1)}(\mathcal Z)}d\mathcal Z}_{\text{ELBO}} \end{cases}⎩⎨⎧​Q^​(t1)(Z)Q(Z)argmax​ELBO∫Z​Q(Z)logQ(Z)P(X,Z;θ(t))​dZ​​⇔Q(Z)argmin​KL Divergence−∫Z​Q(Z)logQ(Z)P(Z∣X)​dZ​​θ(t1)θargmax​ELBO∫Z​Q^​(t1)(Z)logQ^​(t1)(Z)P(X,Z;θ)​dZ​​​ 这两个模型参数学习的例子(一个是学习参数梯度一个是迭代学习参数)它们都不可避免地对隐变量的后验分布进行推断。 精确推断难的原因 虽然能够表示但计算代价太大 为什么要近似推断最核心的原因是精确推断非常困难。也就是说精确推断的代价太大了。 依然以上述受限玻尔兹曼机对数似然梯度求解过程中的第二项为例 ∑v(i)P(v(i))⋅P(hk(i)1∣v(i))⋅vj(i)\sum_{v^{(i)}} \mathcal P(v^{(i)}) \cdot \mathcal P(h_k^{(i)} 1 \mid v^{(i)}) \cdot v_j^{(i)}v(i)∑​P(v(i))⋅P(hk(i)​1∣v(i))⋅vj(i)​ 其中∑v(i)\sum_{v^{(i)}}∑v(i)​表示样本数量的连加项有NNN项如果观测变量V\mathcal VV中包含nnn个随机变量即v(i)(v1(i),v2(i),⋯,vn(i))n×1Tv^{(i)} (v_1^{(i)},v_2^{(i)},\cdots,v_n^{(i)})_{n \times 1}^Tv(i)(v1(i)​,v2(i)​,⋯,vn(i)​)n×1T​并且各观测变量之间相互独立且均服从伯努利分布。那么P(v(i))\mathcal P(v^{(i)})P(v(i))可表示为如下形式 P(v(i))∏m1nP(vm(i))\mathcal P(v^{(i)}) \prod_{m1}^n \mathcal P(v_m^{(i)})P(v(i))m1∏n​P(vm(i)​) 仅仅P(v(i))\mathcal P(v^{(i)})P(v(i))一项的复杂度就是O(2n)\mathcal O(2^n)O(2n)暂时不考虑P(hk(i)1∣v(i))\mathcal P(h_k^{(i)} 1 \mid v^{(i)})P(hk(i)​1∣v(i))中Sigmoid\text{Sigmoid}Sigmoid函数内线性计算的复杂度上式中的复杂度 至少是O(N⋅2n)\mathcal O(N\cdot 2^n)O(N⋅2n)。能算吗能算但样本足够多的情况下代价可看作是无穷大。 这还仅仅是将随机变量设置成最简单的伯努利分布如果复杂度出现‘指数级别’就可看做是‘无法求解的’(Intractable\text{Intractable}Intractable). 上述的例子可以根据受限玻尔兹曼机自身关于随机变量的约束能够将复杂的概率分布进行分解只是分解出的结果计算量太大 无法直接表示 然而存在一些模型模型内部随机变量关联关系复杂的同时还十分没有章法。最终导致联合概率分布连分解都做不到。 例如玻尔兹曼机(Boltzmann Machine,BM\text{Boltzmann Machine,BM}Boltzmann Machine,BM)它本质上就是一个由观测变量、隐变量构成的马尔可夫随机场 由于隐变量Z\mathcal ZZ、观测变量X\mathcal XX内部可能存在关联关系因此关于该模型隐变量的后验概率P(Z∣X)\mathcal P(\mathcal Z \mid \mathcal X)P(Z∣X)干脆是无法用公式表达的。 还有一种就是以Sigmoid\text{Sigmoid}Sigmoid信念网络(Sigmoid Belief Network\text{Sigmoid Belief Network}Sigmoid Belief Network)为代表的包含隐变量、观测变量的贝叶斯网络 该模型同样无法对其联合概率分布P(X,Z)\mathcal P(\mathcal X,\mathcal Z)P(X,Z)进行分解其核心原因是 指向同一观测变量的隐变量结点之间属于V\mathcal VV型结构。而V\mathcal VV型结构意味着隐变量结点之间不是相互独立的因而无法分解。 关于V\mathcal VV型结构 - 贝叶斯网络的条件独立性描述详见贝叶斯网络的结构表示,也称作Explain Away\text{Explain Away}Explain Away问题. 最后一种情况就是上述两种情况的混合情况。代表模型是深度信念网络(Deep Belief Network,DBN\text{Deep Belief Network,DBN}Deep Belief Network,DBN)这里就不再赘述了。 由于受限玻尔兹曼机的条件约束使得隐变量、观测变量内部均条件独立。但并不是说受限玻尔兹曼机比玻尔兹曼机性能更强大(powerful\text{powerful}powerful)而是玻尔兹曼机仅是理论上的产物太过于理想化。在真实环境中没有实际作用 相反受限玻尔兹曼机通过增加约束使得隐变量的后验分布P(Z∣X)\mathcal P(\mathcal Z \mid \mathcal X)P(Z∣X)能够准确表示出来。相当于 放弃了模型复杂度而去追求计算上的可行性。 与之相似的还有‘隐马尔可夫模型’中的齐次马尔可夫假设与观测独立性假设它们都是放弃复杂度、追求计算可行性的典型示例。 可以看出无向图模型无法直接表示后验概率的主要原因在于随机变量结点之间关联关系过于复杂从而无法实现条件独立性而有向图模型无法直接表示后验概率的主要原因在于随机变量之间的结构关系从而无法实现条件独立性。 相关参考 (系列二十五)近似推断1-介绍
http://www.dnsts.com.cn/news/47677.html

相关文章:

  • 网站滑动效果怎么做的3g版和wap网站
  • 制作个人网站教程服务类的网站怎么做
  • 网站建设定制设计实时国际新闻app
  • 鲜花商城网站设计北京网站备案核验单
  • 建立一个企业网站注册一个网站要多少费用
  • 建德营销型网站建设主题字体怎么设置 wordpress
  • 集团网站建设基础方案小程序大概需要多少钱
  • 建设单位企业锁登陆网站做一个京东这样的网站需要多少钱
  • 小说网站有源码了该怎么做万维网网站域名续费
  • 苏州网站建设一条龙请问做网站需要什么
  • 医药网站制作建网站哪个公司好
  • 珠海市建设局官方网站wordpress 邮件 key
  • 人人商城程序做的网站打不开WordPress随机置顶插件
  • 公司网站建设济宁昆明网络推广公司排名
  • 百度里面的站长工具怎么取消wordpress如何设置文章模板
  • 常州专业网站建设公司百度云域名没有备案怎么做网站
  • 网站公司做文员聊城集团网站建设加盟
  • 网站建设选择本地网站开发维护协议
  • 网站做线支付平台系统多少钱哪个网站专门做游戏脚本
  • 个人可以做自媒体网站吗教育培训的网站建设
  • php网站管理系统下载时代空间网站
  • 淘宝做网站的都是模板jw网站设计
  • 做网站的时候宽度都怎么弄程序员做电商网站的公司好吗
  • 苏州学习网站建设网站备案幕布多少钱
  • 舆情网站直接打开怎么弄网站上传都传些什么文件
  • 网站自动发送邮件德州市德城区城乡建设局网站
  • 企业网站备案代理公司做h5小游戏的网站有哪些
  • 网站关键词如何选取正规代运营公司排名
  • 网站建设 的系统公式1万网站建设费入什么科目
  • 旅游网站模板国家信用信息公示官网