windows 做网站服务器,网站建设小程序南宁,设计公司企业分析,公司名字大全20000个三个字文章目录 概要Stable Diffusion 底层结构与原理文本编码器#xff08;Text Encoder#xff09;图片生成器#xff08;Image Generator#xff09; 那扩散过程发生了什么#xff1f;stable diffusion 总体架构主要模块分析Unet 网络采样器迭代CLIP 模型 小结 概要
Stable … 文章目录 概要Stable Diffusion 底层结构与原理文本编码器Text Encoder图片生成器Image Generator 那扩散过程发生了什么stable diffusion 总体架构主要模块分析Unet 网络采样器迭代CLIP 模型 小结 概要
Stable Diffusion 是一种先进的潜在扩散模型Latent Diffusion Model它在深度学习和概率建模领域具有开创性意义。它能够根据文本描述生成高质量、细节丰富的图像并在图像修复、图像绘制、文本到图像转换和图像到图像转换等任务中表现出色。这种模型由 CompVis、Stability AI 和 LAION 的研究人员在 2022 年发布其技术提出者 StabilityAI 公司在同年完成了 1.01 亿美元的融资估值现已超过 10 亿美元。
Stable Diffusion 底层结构与原理
稳定扩散Stable Diffusion的底层结构与原理涉及到深度学习和概率建模的领域尤其是生成模型的研究。以下是稳定扩散的一些基本原理
稳定过程Stable Process 稳定扩散的核心概念之一是稳定过程。稳定过程是一类随机过程其性质在一定条件下对于加法运算是稳定的。这意味着稳定过程的和仍然遵循相同的分布。在稳定扩散中这个过程用于逐步生成数据每一步都是通过添加具有稳定分布的随机变量来改变数据分布。
随机变量的迭代 稳定扩散的生成过程涉及到对初始噪声进行迭代。初始噪声通常是从简单的分布中生成的例如标准正态分布。然后通过多个迭代步骤每一步都会引入稳定分布的随机变量逐渐改变数据分布。
生成模型架构 稳定扩散通常是在生成模型的框架下实现的。生成模型是一类深度学习模型用于学习数据的分布并生成具有相似分布的新样本。在稳定扩散中生成模型的架构可能采用了类似于生成对抗网络GANs的结构其中包括生成器和判别器。
训练过程 训练稳定扩散模型涉及到通过样本数据来学习模型参数使得模型能够逐步生成与样本数据相似的数据。这可能包括通过最大似然估计等方法来优化模型参数。
数值方法 由于稳定扩散涉及到对复杂分布的逐步生成其中可能包括数值方法来有效地处理和优化生成过程。这可能包括数值稳定性的考虑和一些近似方法。
Stable Diffusion 技术是 Diffusion 模型的改进版本它通过引入潜在向量空间Latent Vector Space来解决传统 Diffusion 模型在速度和效率上的瓶颈。这项技术不仅可以专门用于文本生成图像Text-to-Image任务还可以广泛应用于图像生成图像Image-to-Image、特定角色生成、图像超分辨率Super-Resolution以及图像上色等多个计算机视觉领域。
下图是一个基本的文生图流程把中间的 Stable Diffusion 结构看成一个黑盒那黑盒输入是一个文本串“paradise(天堂)、cosmic(广阔的)、beach(海滩)”利用这项技术输出了最右边符合输入要求的生成图片图中产生了蓝天白云和一望无际的广阔海滩。 Stable Diffusion 核心思想是通过利用文本中包含的图像分布信息将一张纯噪声的图片逐步去噪最终生成一张与文本描述相匹配的高质量图像。这一过程的关键在于将人类可读的文本信息转换为机器可理解的数字表示并使用这些数字表示来指导图像生成的过程。
文本编码器Text Encoder
在 Stable Diffusion 系统中文本编码器Text Encoder是第一个关键模块。它的主要任务是将人类输入的文字字符串转换为计算机能够理解的数字表示即语义向量Semantic Vector。文本编码器通常使用预训练的语言模型如 CLIPContrastive Language-Image Pre-training来理解文本的含义并将其转换为一系列具有输入文字信息的语义向量。
图片生成器Image Generator
图片信息生成器是 stable diffusion 和 diffusion 模型的区别所在也是性能提升的关键有两点区别
① 图片信息生成器的输入输出均为低维图片向量不是原始图片对应上图里的粉色 44 方格。同时文本编码器的语义向量作为图片信息生成器的控制条件把图片信息生成器输出的低维图片向量进一步输入到后续的图片解码器黄色生成图片。注原始图片的分辨率为 512512有RGB 三通道可以理解有 RGB 三个元素组成分别对应红绿蓝低维图片向量会降低到 64*64 维度
② Diffusion 模型一般都是直接生成图片不会有中间生成低维向量的过程需要更大计算量在计算速度和资源利用上都比不过 stable diffusion
那低维空间向量是如何生成的是在图片信息生成器里由一个 Unet 网络和一个采样器算法共同完成在 Unet 网络中一步步执行生成过程采样器算法控制图片生成速度下面会在第三部分详细介绍这两个模块。Stable Diffusion 采样推理时生成迭代大约要重复 30~50 次低维空间变量在迭代过程中从纯噪声不断变成包含丰富语义信息的向量图片信息生成器里的循环标志也代表着多次迭代过程。
图像解码器Image Decoder
图像解码器Image Decoder是图片生成器的第二个子模块它接收潜在空间生成器输出的潜在空间向量作为输入并使用升维技术将潜在空间向量转换为实际的图像。图像解码器通常使用反卷积Deconvolution或转置卷积Transposed Convolution等操作来逐渐增加图像的分辨率最终生成一张高质量的图像。
通过将文本编码器和图片生成器有机地组合在一起Stable Diffusion 技术能够根据文本描述生成多样化、高质量的图像为计算机视觉和自然语言处理等领域的研究和应用提供了新的思路和工具。
那扩散过程发生了什么
扩散过程发生在图片信息生成器中把初始纯噪声隐变量输入到 Unet 网络后结合语义控制向量重复 30~50 次来不断去除纯噪声隐变量中的噪声并持续向隐向量中注入语义信息就可以得到一个具有丰富语义信息的隐空间向量右下图深粉方格。采样器负责统筹整个去噪过程按照设计模式在去噪不同阶段中动态调整 Unet 去噪强度。
更直观看一下如下图所示通过把初始纯噪声向量和最终去噪后的隐向量都输到后面的图片解码器观察输出图片区别。从下图可以看出纯噪声向量由于本身没有任何有效信息解码出来的图片也是纯噪声而迭代 50 次去噪后的隐向量已经耦合了语义信息解码出来也是一张包含语义信息的有效图片。
到这里我们大致介绍了 Stable Diffusion 是什么以及各个模块思路并且简单介绍了 stable diffusion 的扩散过程。第三部分我们继续分析各个重要组成模块的运行机制更深入理解 Stable Diffusion 工作原理。
stable diffusion 总体架构
以下是从零基础角度介绍Stable Diffusion技术思路主要聚焦于Stable Diffusion的文生图技术并详细阐述其三个核心模块CLIP模型、Unet训练和采样器迭代。
训练阶段和采样阶段的总体框架如下图所示
训练阶段
包含了图里 PART1 CLIP 模型和 PART2 Unet 训练分成三步
用 AutoEncoderKL 自编码器把输入图片从像素空间映射到隐向量空间把 RGB 图片转换到隐式向量表达。其中在训练 Unet 时自编码器参数已经训练好和固定的自编码器把输入图片张量进行降维得到隐向量。用 FrozenCLIPEmbedder 文本编码器来编码输入提示词 Prompt生成向量表示 context这里需要规定文本最大编码长度和向量嵌入大小。对输入图像的隐式向量施加不同强度噪声再把加噪后隐向量输入到 UNetModel 来输出预估噪声和真实噪声信息标签作比较来计算 KL 散度 loss并通过反向传播算法更新 UNetModel 模型参数引入文本向量 context 后UNetModel 在训练时把其作为 condition利用注意力机制来更好地引导图像往文本向量方向生成
采样阶段
包含了图里 PART1 CLIP 模型和 PART3 采样器迭代分成三步
用 FrozenCLIPEmbedder 文本编码器把输入提示词 Prompt 进行编码生成维度为[B, K, E]的向量表示 context与训练阶段的第 2 步一致。利用随机种子随机产出固定维度的噪声隐空间向量利用训练好的 UNetModel 模型结合不同采样器如 DDPM/DDIM/PLMS迭代 T 次不断去除噪声得到具有文本信息的隐向量表征。用 AutoEncoderKL 自编码器把上面得到的图像隐向量进行解码得到被映射到像素空间的生成图像。
上面对 stable diffusion 总体架构进行了介绍那接下来进一步分析介绍下每个重要组成模块分别是 Unet 网络、采样器和 CLIP 模型三个主要模块。
主要模块分析
Unet 网络
Stable Diffusion 里采用的 UNetModel 模型采用 Encoder-Decoder 结构来预估噪声网络结构如下图
模型输入包括 3 个部分 (1) 图像表示用隐空间向量输入的维度为[B, Z, H/8, W/8]。 (2) timesteps 值维度为[B, ]。 (3) 文本向量表示 context维度为[B, K, E]。
其中[B, Z, H, W]分别表示[batch_size 图片数C 隐空间通道数height 长度weight 宽度]K 和 E 分别表示文本最大编码长度 max length 和向量嵌入大小。
模型使用 DownSample 和 UpSample 进行样本的下上采样在采样模块之间还有黑色虚线框的 ResBlock 和 SpatialTransformer分别接收 timesteps 信息和提示词信息这里只画出一次作为参考。
ResBlock 模块的输入有 ① 来自上一个模块的输入和 ②timesteps 对应的嵌入向量 timestep_emb维度为[B, 4*M]M 为可配置参数。
SpatialTransformer 模块的输入有 ① 来自上一个模块的输入 ② 提示词 Prompt 文本的嵌入表示 context以 context 为注意力机制里的 condition学习提示词 Prompt 和图像的匹配程度。
最后UNetModel 不改变输入和输出大小隐空间向量的输入输出维度均为[B, Z, H/8, W/8]。
ResBlock 网络
ResBlock 网络有两个输入分别是 ① 来自上一个模块的输入 ②timesteps 对应的嵌入向量 timestep_emb维度为[B, 4*M]M 为可配置参数
网络结构图如下所示。 timestep_embedding 的生成方式用的是“Attention is All you Need”论文的 Transformer 方法通过 sin 和 cos 函数再经过两个 Linear 进行变换。
SpatialTransformer 结构
SpatialTransformer 这里包含模块比较多有两个输入分别是 ① 来自上一个模块的输入和 ② 提示词 Prompt 文本的嵌入表示 context 作为 condition 两者使用 cross attention 进行建模。
其中SpatialTransformer 里面的注意力模块 CrossAttention 结构把图像向量作为 Query文本表示 context 作为 KeyValue利用 Cross Attention 模块来学习图像和文本对应内容的相关性。
注意力模块的作用是当输入提示词来生成图片时比如输入 “一匹马在吃草”由于模型已经能捕捉图文相关性以及文本中的重点信息当看到 “马”时注意力机制会重点突出图像“马”的生成当看到“草”时注意力机制会重点突出图像 “草” 的生成进而实现和文本匹配的图片生成。 Unet 如何训练
Stable Diffusion 里面 Unet 的学习目标是什么简单来说就是去噪。那在为去噪任务设计训练集时就可以通过向普通照片添加噪声来得到训练样本。具体来说对于下面这张照片用 random 函数生成从强到弱的多个强度噪声比如下图 0~3 有 4 个强度的噪声。训练时把噪声强度和加噪后图片输入到 Unet计算预测噪声图和真正噪声图之间的误差损失通过反向传播更新 unet 参数。 训练好 Unet 后如下图 所示从加噪图片中推断出噪声后就可以用加噪图减掉噪声来恢复原图重复这个过程第一步预测噪声图后再减去噪声图用更新后的加噪图进行第二步去噪最终就能得到一张很清晰的生成图片。由于使用了高斯分布的 KL 散度损失Unet 生成图片实际上是接近训练集分布的和训练集有着相同像素规律。也就是说使用真实场景的写实训练集去训练模型它的结果就会具有写实风格尽量符合真实世界规律。
采样器迭代
这部分介绍下采样阶段中扩散模型如何多次迭代去除噪声进而得到生成图片的潜在空间表示。提到采样器要从最基础的采样器 DDPMDenoising Diffusion Probabilistic Models进行介绍[4]。DDPM 推导有点复杂这里就用朴素一点的大白话结合几个关键公式来理清推导思路。
1、扩散模型的思路是训练时先在图片上不断加噪来破坏图片推理时对加噪后的图片去噪来恢复出原始图片。训练过程的 T 次迭代中可推导出一个重要特性任意时刻的 Xt 可以由 X0 和 β 表示任意时刻的 X0 也可以由 Xt 和噪声 z 求得。 其中第一行里 a 和 β 可以描述噪声强度第二行X0 为初始的干净图片增加噪声 z 后生成加噪图片 Xt后个公式由前个公式变换而来表示加噪图片减去一定强度噪声得到图片 X0。
2、问题变成如何求逆向阶段的分布即给定了一张加噪后图片如何才能求得前一时刻没有被破坏得那么严重的略清晰图片。经过论文里的一顿推导又得出两个重要结论
① 逆向过程也服从高斯分布 ② 在知道原始清晰图片时能通过贝叶斯公式把逆向过程转换成前向过程进而算出逆向过程分布。
在公式上体现如下
其中第一行指的是给定 X0 情况下逆向过程也服从高斯分布并且利用贝叶斯公式把逆向过程转换成前向过程前向过程是不断加噪的过程可以被计算第二行指的是Xt 和 X0 由于可以相互转换从公式上看均值也可以从 Xt 减去不同噪声得到。
3、算出逆向过程分布后就可以训练一个模型尽量拟合这个分布而且模型预估结果也应该服从高斯分布 其中求均值公式里只包含 Xt 和噪声由于 Xt 在训练时已知那只需要得到模型输出的预估噪声该值可由模型用 Xt 和 t 预估得到。
4、把逆向过程分布也就是 Label 值和模型的预估分布做比较由于 ①KL 散度可以用来描述两个分布之间的差异和 ② 多元高斯分布的 KL 散度有闭式解经过一番推导发现损失函数变成计算两个高斯分布的 KL 散度。 其中q 分布是逆向过程分布p 是模型预估分布训练损失是求两个高斯分布的 KL 散度即两个分布之间的差距。
5、DDPM 训练过程和采样过程的伪代码如下图所示。由于 DDPM 的高质量生成依赖于较大的 T一般为 1000 以上导致 Diffusion 前向过程特别缓慢因此后续进一步有了 DDIM、PLMS 和 Euler A 等一些优化版采样器。 其中训练阶段实际上是求真实噪声和模型预估噪声的 MSE 误差再对 Loss 求导反向传播来训练模型采样阶段求得均值和方差后采用重参数技巧来生成样本。
扩散模型采样阶段是对加噪后图片去噪来恢复出原始图片 ① 任意时刻的图片均可以由原始图片和噪声表示 ② 逆向过程的图片参数符合高斯分布优化目标转化为计算逆向分布和预估分布的 KL 散度差异并在采样阶段使用重参数技巧来生成图片。
CLIP 模型
在前面有提到提示词 Prompt 文本利用文本模型转换成嵌入表示 context作为 Unet 网络的 condition 条件。那问题来了语义信息和图片信息属于两种模态怎么用 attention 耦合到一起呢这里介绍下用于提取语义信息的 CLIP 模型。
语义信息的好坏直接影响到了最终生成图片的多样性和可控性那像 CLIP 这样的语言模型是如何训练出来的是如何结合文本串和计算机视觉的呢首先要有一个具有文本串和计算机视觉配对的数据集。CLIP 模型所使用的训练集达到了 4 亿张通过从网络上爬取图片及相应的标签或者注释。
CLIP 模型结构包含一个图片 encoder 和一个文字 encoder类似于推荐场景常用到的经典双塔模型。 训练时从训练集随机取出一些样本图片和标签配对的话就是正样本不匹配的话就是负样本CLIP 模型的训练目标是预测图文是否匹配 取出文字和图片后用图片 encoder 和文字 encoder 分别转换成两个 embedding 向量称作图片 embedding 和文字 embedding 用余弦相似度来比较两个 embedding 向量相似性并根据标签和预测结果的匹配程度计算损失函数用来反向更新两个 encoder 参数。 在 CLIP 模型完成训练后输入配对的图片和文字这两个 encoder 就可以输出相似的 embedding 向量输入不匹配的图片和文字两个 encoder 输出向量的余弦相似度就会接近于 0。
推理时输入文字可以通过一个 text encoder 转换成 text embedding也可以把图片用 image encoder 转换成 image embedding两者就可以相互作用。在生成图片的采样阶段把文字输入利用 text encoder 转换成嵌入表示 text embedding作为 Unet 网络的 condition 条件。
小结 AI 绘画各种应用不断涌现目前有关 Stable Diffusion 的文章主要偏向应用介绍对于 Stable Diffusion 技术逻辑的介绍还是比较少。这篇文章主要介绍了 Stable Diffusion 技术结构和各个重要组成模块的基本原理希望能够让大家了解 Stable Diffusion 是如何运行的才能更好地控制 AI 绘画生成。AI 绘画虽然还面临一些技术挑战但随着技术不断迭代和发展相信 AI 能够在更多领域发挥出惊喜生产力。
参考文章