网站开发系统流程图,wordpress 移动端 主题,制标易logo设计,wordpress 股票主题文章目录 1 想法概述2 实际过程阶段1 Add Noise阶段2 Denoise 3 数学原理4 为什么推理时要额外加入noise5 一些不知道对不对的Summary 1 想法概述
从一张充满噪声的图中不断denoise#xff0c;最终得到一张clear的图片。为了确定当前图片中噪声占比的大小#xff0c;同时输入… 文章目录 1 想法概述2 实际过程阶段1 Add Noise阶段2 Denoise 3 数学原理4 为什么推理时要额外加入noise5 一些不知道对不对的Summary 1 想法概述
从一张充满噪声的图中不断denoise最终得到一张clear的图片。为了确定当前图片中噪声占比的大小同时输入原图片和参数 t t t参数 t t t用于标识一张图片中的噪声占比含量。 显然迭代第1次时图片的噪声含量和迭代第999次是不同的因此需要输入这种信息t来进行标识。 2 实际过程
阶段1 Add Noise
首先准备好一组确定的参数 α 1 ˉ , α 2 ˉ , … , α T ˉ \bar{\alpha_1},\bar{\alpha_2},\dots,\bar{\alpha_T} α1ˉ,α2ˉ,…,αTˉ用以表示时间步 t t t下样本和噪声的混合情况 t t t越大噪声占比越高。然后重复以下过程直至收敛 采样 从真实样本集中取出一个样本 x 0 x_0 x0 从 [ 1 , T ] [1,T] [1,T]的整数中采样出 t t t来表示时间步 从标准正态分布中采样出噪声 ϵ \epsilon ϵ 构造带噪声样本 x α t ˉ x 0 1 − α t ˉ ϵ x\sqrt{\bar{\alpha_t}}x_0 \sqrt{1-\bar{\alpha_t}} \epsilon xαtˉ x01−αtˉ ϵ 将构造样本 x x x和时间步 t t t一同输入噪声预测器 ϵ θ ( ) \epsilon_\theta() ϵθ()得到预测噪声 ϵ θ ( x , t ) \epsilon_\theta(x,t) ϵθ(x,t)。 目标函数为 ϵ θ ( x , t ) \epsilon_\theta(x,t) ϵθ(x,t)和采样出的真实噪声 ϵ \epsilon ϵ的 M S E MSE MSE 阶段2 Denoise 3 数学原理
极大似然估计近似等价于最小化KL散度(表示两个分布的相似性) 对任何分布 q ( z ∣ x ) q(z|x) q(z∣x)有 log P θ ( x ) ≥ ∫ z q ( z ∣ x ) log P ( z , x ) q ( z ∣ x ) d z E q ( z ∣ x ) [ log P ( z , x ) q ( z ∣ x ) ] \log P_\theta(x) \ge \int_{z}q(z|x)\log \frac{P(z,x)}{q(z|x)}dz E_{q(z|x)}[\log \frac{P(z,x)}{q(z|x)}] logPθ(x)≥∫zq(z∣x)logq(z∣x)P(z,x)dzEq(z∣x)[logq(z∣x)P(z,x)] 所以对DDPM来说 log P θ ( x ) ≥ E q ( x 1 : x T ∣ x 0 ) [ log P ( x 0 : x T ) q ( x 1 : x T ∣ x 0 ) ] \log P_\theta(x) \ge E_{q(x_1:x_T|x_0)}[\log \frac{P(x_0:x_T)}{q(x_1:x_T|x_0)}] logPθ(x)≥Eq(x1:xT∣x0)[logq(x1:xT∣x0)P(x0:xT)] 结合正态分布的可加性做N次独立的正态sampling可能通过一次的sampling就能解决。 对式3不断变换最后可得这个式子的过程可以不用看也并不复杂但是麻烦理解结论就好 然后再经过一系列的运算求出来 q ( x t − 1 ∣ x t , x 0 ) q(x_{t-1|x_t,x_0}) q(xt−1∣xt,x0)依然是高斯分布表示首尾 x 0 , x T x_0,x_T x0,xT固定住产生 x t − 1 x_{t-1} xt−1的概率是一个和network无关的分布。而 P ( x t − 1 ∣ x t ) P(x_{t-1}|x_t) P(xt−1∣xt)是由网络决定的我们不考虑它的variance只考虑mean。如果我们希望这两个分布越接近越好那就想办法让两个分布的mean越接近越好。
化简 实际需要预测出的部分 4 为什么推理时要额外加入noise
李宏毅老师的一点Guess生成式任务概率最大的结果未必就是最好的结果。人写的文章用词可能更suprising。 5 一些不知道对不对的Summary 希望近似 P d a t a ( x ) P_{data}(x) Pdata(x)和 P θ ( x ) P_\theta(x) Pθ(x)的分布而对给定的 x x x使 P θ ( x ) P_\theta(x) Pθ(x)最大化可以转换为使其下界最大化从而转换为使 E q ( x 1 : x T ∣ x 0 ) [ log P ( x 0 : x T ) q ( x 1 : x T ∣ x 0 ) ] E_{q(x_1:x_T|x_0)}[\log \frac{P(x_0:x_T)}{q(x_1:x_T|x_0)}] Eq(x1:xT∣x0)[logq(x1:xT∣x0)P(x0:xT)]最大化。 在假设 x t β t x t − 1 1 − β t z t − 1 x_t\sqrt{\beta_t}x_{t-1}\sqrt{1-\beta_t}z_{t-1} xtβt xt−11−βt zt−1的前提下可以推出 x t α t ˉ x 0 1 − α t ˉ z x_t\sqrt{\bar{\alpha_t}}x_{0}\sqrt{1-\bar{\alpha_t}}z xtαtˉ x01−αtˉ z 从而可以进一步化简 E q ( x 1 : x T ∣ x 0 ) [ log P ( x 0 : x T ) q ( x 1 : x T ∣ x 0 ) ] E_{q(x_1:x_T|x_0)}[\log \frac{P(x_0:x_T)}{q(x_1:x_T|x_0)}] Eq(x1:xT∣x0)[logq(x1:xT∣x0)P(x0:xT)]为三项其余两项与Network无关可只考虑中间一项该项由 q ( x t − 1 ∣ x t , x 0 ) q(x_{t-1|x_t,x_0}) q(xt−1∣xt,x0)和 P ( x t − 1 ∣ x t ) P(x_{t-1}|x_t) P(xt−1∣xt)的KL散度之和组成 q ( x t − 1 ∣ x t , x 0 ) q(x_{t-1}|x_t,x_0) q(xt−1∣xt,x0)表示首尾 x 0 , x T x_0,x_T x0,xT固定住产生 x t − 1 x_{t-1} xt−1的概率可求得是一个和network无关的高斯分布均值可以表示为 而 P ( x t − 1 ∣ x t ) P(x_{t-1}|x_t) P(xt−1∣xt)是由网络决定的我们不考虑它的variance只考虑mean。 如果我们希望这两个分布越接近越好那就想办法让两个分布的mean越接近越好。而上式中仅有 ϵ \epsilon ϵ需要确定因此我们希望网络能够预测这个值从而完成推理。预测出这一项 ϵ \epsilon ϵ的过程可以看作为从 x 0 x_0 x0和 x t x_t xt预测出 x t − 1 x_{t-1} xt−1的过程。