当前位置: 首页 > news >正文

免费元素素材网站seo点击软件

免费元素素材网站,seo点击软件,wordpress插件中文网,闵行18路英文名称: Auto-Encoding Variational Bayes 中文名称: 自编码变分贝叶斯 论文地址: http://arxiv.org/abs/1312.6114 时间: 2013 作者: Diederik P. Kingma, 阿姆斯特丹大学 引用量: 24840 1 读后感 VAE 变分自编码#xff08;Variational Autoencoder#xff09;是一种生…英文名称: Auto-Encoding Variational Bayes 中文名称: 自编码变分贝叶斯 论文地址: http://arxiv.org/abs/1312.6114 时间: 2013 作者: Diederik P. Kingma, 阿姆斯特丹大学 引用量: 24840 1 读后感 VAE 变分自编码Variational Autoencoder是一种生成模型它结合了自编码器和概率图模型的思想。它的目标是解决对复杂性高且量大的数据难以拟合的问题。具体方法是使用基于变分推理的原理以变分下界作为目标函数用梯度方法求取模型参数。 2 通俗理解 听起来非常抽象简单地说变分自编码器是自编码器的改进版。 2.1 自编码器 自编码器通常由编码器和解码器两部分组成其中编码器将原始数据映射到低维表示解码器则将低维表示映射回原始数据空间。即原始数据为x将其输入编码器降维后变成数据z再经过编码器还原成数据 x’。它常用于高维数据的低维表示和从低维表示中生成高维数据。比如图像去噪修复图片生成高分辨率图片等。 2.2 变分自编码器 变分自编码器在中间加了一层逻辑它假设中间过程的数据 z 每个维度都是正态分布的可以使用均值 μ 和 方差 σ 表示。由此就变成了变分自编码器训练编码器和解码器网络可将图片x分布压缩后再拆分成多个高斯分布的叠加如上图所示。 3 相关概念 3.1 高斯分布 使用高斯分布的原因是每张训练图片的内容都不一样训练过程中产生的潜空间z也是离散的不能确定它的分布。比如数据有满月和半月但无法产生2/3月亮。而高斯分布是连续的如果能把中间的表征z用正态分布描述它就是平滑的理论上就可以产生介于两图之间的内容图片它具有一定的潜在空间的连续性和插值性质。 3.2 高斯混合模型 GMM 可以想见z的分布相当复杂不是一个简单的高斯分布可以描述的。图中红色为分布曲线。它可分解为一系列不同频率、不同振幅、不同相位的正弦波。也就是说可以用多个正态分布高斯分布的叠加去逼近任意一个分布。可以说 VAE 是对 GMM 方法的改进版。 3.3 KL散度 用于衡量两个分布之间的距离。 3.4 最大似然估计 似然与概率类似但有如下区别给定一个函数 P ( x ∣ θ ) P(x|\theta) P(x∣θ) x是样本点 θ \theta θ是参数。 1当 θ \theta θ 为常量 x为变量时称 P 为关于 x 的概率函数 2当 x 为常量 θ \theta θ 为变量时称 P 为关于 θ \theta θ 的似然函数 求解最大似然是指求使得样本点 x 能够以最大概率发生的 θ \theta θ 的取值。 3.5 变分推断 变分 Variational 是通过引入一个简化的参数化分布来近似复杂的后验分布。这个参数化分布被称为变分分布它属于一种可计算的分布族。通过调整变分分布的参数使其尽可能接近真实的后验分布从而实现近似推断。 3.6 变分下界 变分下界variational lower bound通常用于衡量变分分布与真实后验分布之间的差异。 E L B O E [ l o g p ( x , z ) − l o g q ( z ) ] ELBO E[log\ p(x, z) - log\ q(z)] ELBOE[log p(x,z)−log q(z)] 其中ELBO 代表变分下界Evidence Lower BOundx代表观测数据z代表未知变量p(x, z)表示真实的联合分布q(z)表示变分分布。 3.7 代入本文中场景 有一张图 x后验分布想把它映射成 z假设 z 是混合高斯分布(先验分布)各维可能描述颜色材质……用函数函数 g() 把 x 分解成高斯分布它的逆过程是用 f() 根据高斯分布还原原始图 x‘ 最终恢复的图片 x’f(g(x))目标是想让 x’-x 值尽量小就是说图 x 转成潜空间 z 再转回原始图 x’图像最好没变化。 综上所述无论x是什么通过变换产生的x’都与x很像中间过程的 z 还能用高斯参数表示求这样的函数f和g的神经网络。 3.8 蒙特卡洛估计 蒙特卡洛估计Monte Carlo estimation是一种基于随机抽样的统计估计方法用于计算复杂问题的数值近似解。其基本思想是通过生成大量的随机样本利用这些样本的统计特性来估计问题的解。 4 方法 以下图和公式中的变量含义重新开始定义不要与上面混淆 先看一下论文主图N是数据集x是真实空间可观察z是潜空间不可观察的连续空间实线表示生成模型 pθ(z)pθ(x|z)虚线表示p的变分近似 qφ(z|x)也称识别模型文中使用的方法是用 qφ(z|x) 模拟难以计算的 pθ(z|x)变分参数 φ 与生成模型参数 θ 一起学习。这里的q可视为编码器而p视为解码器。 4.1 变分边界 边界似然Marginal Likelihood是各观测数据点每张图片在给定模型下的概率之和原图的概率值越大模型越好它描述的是图像重建的好不好重建损失。 l o g p θ ( x ( 1 ) , ⋅ ⋅ ⋅ , x ( N ) ) ∑ i 1 N l o g p θ ( x ( i ) ) log\ p_θ(x^{(1)}, · · · , x^{(N)}) \sum^N_{i1} log\ p_θ(x^{(i)}) log pθ​(x(1),⋅⋅⋅,x(N))i1∑N​log pθ​(x(i)) 各数据点的概率 l o g p θ ( x ( i ) ) D K L ( q φ ( z ∣ x ( i ) ) ∣ ∣ p θ ( z ∣ x ( i ) ) ) L ( θ , φ ; x ( i ) ) log\ p_θ(x(i)) D_{KL}(q_φ(z|x^{(i)})||p_θ(z|x^{(i))}) L(θ, φ; x^{(i)}) log pθ​(x(i))DKL​(qφ​(z∣x(i))∣∣pθ​(z∣x(i)))L(θ,φ;x(i)) 前半部分 DKL 是z的模拟值和真实后验的 KL 散度KL 散度一定大于0后半部分 L 是变分下界建模的目标 log ⁡ p θ ( x ( i ) ) ≥ L ( θ , ϕ ; x ( i ) ) E q ϕ ( z ∣ x ) [ − log ⁡ q ϕ ( z ∣ x ) log ⁡ p θ ( x , z ) ] \log p_{\boldsymbol{\theta}}\left(\mathbf{x}^{(i)}\right) \geq \mathcal{L}\left(\boldsymbol{\theta}, \boldsymbol{\phi} ; \mathbf{x}^{(i)}\right)\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{z} \mid \mathbf{x})}\left[-\log q_{\boldsymbol{\phi}}(\mathbf{z} \mid \mathbf{x})\log p_{\boldsymbol{\theta}}(\mathbf{x}, \mathbf{z})\right] logpθ​(x(i))≥L(θ,ϕ;x(i))Eqϕ​(z∣x)​[−logqϕ​(z∣x)logpθ​(x,z)] 这里的E是期望右测是变分下界 ELBO 的公式。 通过移项得到了变分下界的目标函数公式如下 L ( θ , ϕ ; x ( i ) ) − D K L ( q ϕ ( z ∣ x ( i ) ) ∥ p θ ( z ) ) E q ϕ ( z ∣ x ( i ) ) [ log ⁡ p θ ( x ( i ) ∣ z ) ] \mathcal{L}\left(\boldsymbol{\theta}, \boldsymbol{\phi} ; \mathbf{x}^{(i)}\right)-D_{K L}\left(q_{\boldsymbol{\phi}}\left(\mathbf{z} \mid \mathbf{x}^{(i)}\right) \| p_{\boldsymbol{\theta}}(\mathbf{z})\right)\mathbb{E}_{q_{\boldsymbol{\phi}}\left(\mathbf{z} \mid \mathbf{x}^{(i)}\right)}\left[\log p_{\boldsymbol{\theta}}\left(\mathbf{x}^{(i)} \mid \mathbf{z}\right)\right] L(θ,ϕ;x(i))−DKL​(qϕ​(z∣x(i))∥pθ​(z))Eqϕ​(z∣x(i))​[logpθ​(x(i)∣z)] 目标函数是最大化变分下界Variational Lower Bound第一项 KL散度Kullback-Leibler Divergence衡量了潜在变量的分布与先验分布之间的差异z的差异越小越好第二项 重建损失Reconstruction Loss衡量了重建样本与原始样本之间相似度x为原图的概率越大越好所以整体 L 越大越好。 z 对应的多个高斯分布的均值和方差都不是固定的值它们通过神经网络计算得来神经网络的参数通过训练得到。 4.2 具体实现 这里引入了噪声变量e作为辅助变量来实现 q 的功能。 z ~ g ϕ ( ϵ , x ) \widetilde{z}g_\phi(\epsilon,x) z gϕ​(ϵ,x) 对某个函数 f(z) 的期望进行蒙特卡洛估计具体通过采样实现其minibatch 是从有N个数据点的数据集中随机抽取M个点 L ( θ , ϕ ; X ) ≃ L ~ M ( θ , ϕ ; X M ) N M ∑ i 1 M L ~ ( θ , ϕ ; x ( i ) ) \mathcal{L}(\boldsymbol{\theta}, \boldsymbol{\phi} ; \mathbf{X}) \simeq \widetilde{\mathcal{L}}^{M}\left(\boldsymbol{\theta}, \boldsymbol{\phi} ; \mathbf{X}^{M}\right)\frac{N}{M} \sum_{i1}^{M} \widetilde{\mathcal{L}}\left(\boldsymbol{\theta}, \boldsymbol{\phi} ; \mathbf{x}^{(i)}\right) L(θ,ϕ;X)≃L M(θ,ϕ;XM)MN​i1∑M​L (θ,ϕ;x(i)) 可以将KL散度看成限制参数φ的正则化项。而重建误差部分先用函数 gφ(.) 将数据点 x 和随机噪声向量映射到该数据点的近似后验样本z然后计算 log pθ(x(i)|z(i,l))等于生成模型下数据点 x(i) 的概率密度从而计算重建误差。 4.3 变分自编码器 在变分自编码器的场景中先验是中心各向同性的多元高斯分布 log ⁡ q ϕ ( z ∣ x ( i ) ) log ⁡ N ( z ; μ ( i ) , σ 2 ( i ) I ) \log q_{\boldsymbol{\phi}}\left(\mathbf{z} \mid \mathbf{x}^{(i)}\right)\log \mathcal{N}\left(\mathbf{z} ; \boldsymbol{\mu}^{(i)}, \boldsymbol{\sigma}^{2(i)} \mathbf{I}\right) logqϕ​(z∣x(i))logN(z;μ(i),σ2(i)I) 其中均值和标准差是编码 MLP 的输出。由于是高斯分布 z ( i , l ) g ϕ ( x ( i ) , ϵ ( l ) ) μ ( i ) σ ( i ) ⊙ ϵ ( l ) z^{(i,l)} g_\phi(x^{(i)}, \epsilon^{(l)}) μ^{(i)} σ^{(i)} \odot \epsilon^{(l)} z(i,l)gϕ​(x(i),ϵ(l))μ(i)σ(i)⊙ϵ(l) 引入高斯分布的KL散度最终目标函数是
http://www.dnsts.com.cn/news/252150.html

相关文章:

  • 网站建设网站建网络建设公司不只是
  • 网站建设宣传词企业网站优化报价
  • wordpress多站点功能建网站提供下载
  • 网站建设所需硬件wordpress评论框必填加星
  • 开公司做网站wordpress会员注册
  • 下载正品官方网站当当网网站建设需求分析
  • 重庆忠县网站建设公司电话腾讯云网站模板
  • 设计师自己的网站网站如何做口碑营销
  • ui中国设计网站页面佛山网站快照优化公司
  • php网站开发实例教程 课件做网站设计需要多久
  • 上海网站设计软件wordpress 端口修改
  • 怎么搭建网页服务器seo建站还有市场吗
  • 公司建网站哪家网站建设尾款催收函
  • 网站建设基本流程ppt网页微信无法登录
  • 做网站什么系统简单网站开发的上市公司有哪些
  • 企业如何选择网站wordpress 海会网络
  • 案例建网站怎么做游戏自动充值的网站
  • 微信网站 微信支付企业画册设计制作
  • 建站免费空间免域名x网站
  • thinkcmf 做企业网站做字的网站
  • 学校网站开发说明书文档重庆市建设工程质量信息网
  • wordpress整站安装深圳保障性住房新政策
  • 国外设计参考网站咨询公司起名
  • 记事本里做网站 怎么把字体电商网站开发平台
  • 电脑软件下载官方网站网站登录页面制作
  • 如何查询网站的访问量1688阿里巴巴官方网站
  • 网站建设翻译谁提供电脑制作ppt的软件
  • 广州新塘网站建设wordpress 作品主题
  • 温州网站建设案例网站老域名跳转到新域名
  • 专做logo网站叫什么大连信息网