苏州网站开发公司兴田德润在哪儿,绥化网站建设,朝阳区网站建设,如何做网站栏目目录 前言发展1月2月3月4月5月6月7月9月10月11月12月 思考与总结参考文献 前言
说到文生图#xff0c;可能有些人不清楚#xff0c;但要说AI绘画#xff0c;就有很多人直呼#xff1a; 2022可以说是AI绘图大爆发的元年。
AI绘画模型可以分为扩散模型#xff08;Diffusio… 目录 前言发展1月2月3月4月5月6月7月9月10月11月12月 思考与总结参考文献 前言
说到文生图可能有些人不清楚但要说AI绘画就有很多人直呼 2022可以说是AI绘图大爆发的元年。
AI绘画模型可以分为扩散模型Diffusion Model、自回归模型变分自编码器Autoregressive Model、**生成对抗网络模型 **GANGenerative Adversarial Networks三大路径。
扩散模型有代表的例如MidjorneyStable Diffusion、DALL-E 2自回归模型以DALL-E、parti等代表GAN例如有StackGAN等。
扩散模型大家还可以看看huggingface的diffusers库收集了很多Diffusion model由于生成图像质量高FID值小开源等特点成为当下技术的主流。 发展
那么2023年文生图领域卷到哪里了呢 提前说明一下 这里只说模型架构不谈应用当然如果是没技术细节没论文我也随便说下因为不保真不知道是不是你真自研。不同于别人写的流水账我不仅介绍发展还会粗略地介绍技术进行简单的抛砖引玉希望能够激起大家的兴趣不断学习多看相关知识看一篇是不能完全理解原理的。 好的废话不多说现在开始。
1月
23年1月左右微软在21年发表的LoRA能够极少数据微调模型瞬间在AI绘图中火起来这是目前最流行的微调 SD 的方法之一。 LoRA的示意图如上对于预训练的权重矩阵LoRA增加了A和B这两个低秩矩阵其中A是采用高斯初始化B的初始值是0在训练时只更新A、B的参数w被冻结公式如下 h w 0 x Δ W x w 0 x α r B A x hw_0x\Delta Wxw_0x\frac{\alpha}{r} BAx hw0xΔWxw0xrαBAx。 Δ W \Delta W ΔW称为微调权重 α \alpha α是个超参数r是矩阵的秩。
其实这个原理你可以认为本来的预训练权重很大这时候被冻结了我们反而学习新的知识但这个知识的大小是精华量小而有效我们就靠它来微调我们的模型节省训练的代价。
17日GLIGEN 模型由威斯康星大学麦迪逊分校、哥伦比亚大学和微软的研究人员和工程师创建。该方法能够在现有的预训练好的扩散模型的基础上增加对定位输入的支持从而实现开放集的基于定位语言的图像生成。
23日来自英伟达等机构的研究者死活不服扩散模型如今地地位试图表明GAN仍然具有竞争力提出StyleGAN-T模型只需0.1秒即可生成 512×512分辨率图像。 该研究选择StyleGAN-XL作为基线架构因为StyleGAN-XL在以类别为条件的ImageNet合成任务中表现出色。然后该研究依次从生成器、判别器和变长与文本对齐的权衡机制的角度修改 StyleGAN-XL。作者使用零样本MS COCO来衡量改动的效果使用预训练的CLIP ViT-L/14文本编码器来嵌入文本提示以此来代替类别嵌入删除了用于引导生成的分类器。
2月
9日UniPC是23年提出的调度器受到同名的常微分方程求解法思路的影响。可以在5-10个步骤中实现高质量图像生成。
10日张吕敏发布了ControlNet那么什么是ControlNet呢
我还记得在高铁上突然刷到ControlNet量子位发表的“四少女火爆外网…”用户终于可以控制图片生成的稳定性ControlNet 的核心思想是在文本描述之外添加一些额外条件来控制扩散模型如 Stable Diffusion从而更好地控制生成图像的人物姿态、深度、画面结构等信息。 我们可以看到使用controNet它将神经网络块的权重复制为“locked”副本和“trainable可训练”副本。zero convolution是权重和偏差都初始化为零的 1×1 卷积。最后还会把零卷积后的可训练副本和冻结副本相加。
这样的好处是锁定副本保留了原来模型能力最后把训练出来的新知识进行相加使得模型训练时候不会忘记自己今天来月球是来干什么的哦原来只要跨一小步就行了。零卷积会在训练中逐渐成为具有非零权重的公共卷积层并不断优化参数权重。
16日腾讯提出T2I-Adapter*“挖掘”T2I 模型隐式学习的能力然后显式地使用它们来更精细地控制生成。*学习简单且轻量级的 T2I 适配器以将 T2I 模型中的内部知识与外部控制信号结合起来同时冻结原始的大型 T2I 模型。
23日谷歌提出一种通过人类反馈来改进文生图模型的图文一致性的方法仅使用基于Reward的加权损失对文本到图像模型进行微调。
3月
2日OpenAI提出了Consistency Models它是一种支持快速one-step生成的模型并且仍然允许few-step采样以在计算量和样本质量之间做出权衡。它们还支持零样本数据编辑例如图像修复、着色和超分辨率而无需为这些任务进行具体训练。Consistency Models可以通过蒸馏预训练扩散模型的方式进行训练也可以作为独立的生成模型进行训练。
9日针对增加StyleGAN架构容量会导致不稳定的问题来自浦项科技大学韩国、卡内基梅隆大学和Adobe研究院的研究人员提出了一种全新的生成对抗网络架构GigaGAN打破了模型的规模限制展示了GAN仍然可以胜任文本到图像合成模型。 GigaGAN生成器是由文本编码分支、风格映射网络、多尺度合成网络组成并通过稳定注意力和自适应内核选择进行增强。在文本编码分支中首先使用预训练的CLIP模型和学习的注意力层T来提取文本嵌入。然后将嵌入传递到样式映射网络M以生成样式向量w类似于StyleGAN。合成网络使用样式代码作为调制使用文本嵌入作为注意力来生成图像金字塔。此外引入样本自适应内核选择根据输入文本条件自适应地选择卷积内核。 判别器由两个分支组成一个处理图像条件一个处理文本条件。图像分支接收图像金字塔并对每个图像尺度进行独立预测并在下采样层的所有后续尺度上进行预测。此外采用额外的损失来鼓励有效的收敛。
结果是比SD1.5更快图像质量更好。
21日Adobe 发布了Firefly萤火虫在6月ps也能玩AI辅助了。由于是设计公司发布的所以其输出的内容可以分层、精细化地进行修改一切为了设计。由于是设计公司真的一点细节都没有真的论文也不露一手。所以我也不给你配图了
4月
21日谷歌实现了在 GPU 驱动的设备上运行 Stable Diffusion 1.4 达到 SOTA 推理延迟性能在三星 S23 Ultra 上通过 20 次迭代生成 512 × 512 的图像仅需 11.5 秒。论文地址此前有研究者开发了一个应用程序该应用在 iPhone 14 Pro 上使用 Stable Diffusion 生成图片仅需一分钟使用大约 2GiB 的应用内存。谷歌为Group Norm 和 GELU设计了专用内核优化softmax提高注意力模块的效率并且使用Winograd 卷积Stable Diffusion 的主干在很大程度上依赖于 3×3 卷积层于是使用4x4 tile大小的 Winograd进行优化。
23日俄罗斯团队发布了Kandinsky2.1这是继承了 Dall-E 2 和潜在扩散的最佳实践同时引入了一些新的想法。作为文本和图像编码器它使用 CLIP 模型和 CLIP 模式的潜在空间之间的扩散图像先验映射。这种方法提高了模型的视觉性能并揭示了混合图像和文本引导图像操作的新视野。 5月 9日面对当前预训练的扩散模型在处理简单叙述提示时理解语义和进行常识推理方面存在限制这会导致图像生成效果不理想的现状国内中山大学HCP实验室提出了SUR-adapter,一种简单而有效的参数高效微调方法。 他们引入了一个新数据集叫做SURD它包含超过57,000个经过语义修正的图像和文本对。此外他们还开发了一个名为SUR适配器的模块该模块能够从基于关键字的复杂提示和大型语言模型中提取语义理解和推理知识。通过对SURD进行大量实验和严格评估结果表明SUR适配器能够增强扩散模型的语义理解能力同时不影响图像生成的质量。
12日清华提出了UniDiffuser采用称为U-ViT 的transformer主干这也是首个基于Transformer的多模态扩散大模型率先发布了对多模态生成式模型的一些探索工作实现了任意模态之间的相互转化。除了单向的文生图还能实现图生文、图文联合生成、无条件图文生成、图文改写等多种功能大幅提升文图内容的生产效率也进一步提升了生成式模型的应用想象力。 众所周知Diffusion耗时最长的是Unet结构所以天下苦卷积久矣当它出来的时候好家伙研究了几年的Transformer什么又回卷积了。 将diffusion unet换成transformer这是我目前看到的第二篇还有一篇是22年12月20提出的[Scalable Diffusion Models with Transformers这是我目前看到的首个将UNet架构换成transformerDIT但是实践下来提示词太限制了…效果没有U-ViT好。 17日MIT提出了FastComposer是一种无需微调、个性化、多主题的文本到图像生成方法它利用图像编码器提取的主题嵌入来增强扩散模型中的文本条件在生成图像身份保持方面优于Stable Diffusion、Custom Diffusion、DreamBooth等。
24日Salesforce公司开源了自己最新的文生图的研究成果Blip-diffusion源码1源码2通过BLIP-2 编码器来提取多模态主题表示然后将其与文本提示一起用于扩散模型引导使得生成图像既能捕获特定主题的视觉外观特征又能很好地与文本提示对齐。
29日商汤提出的绘画大模型RAPHAEL,也是基于扩散模型开发。 (a) 每个块包含四个主要组件包括自注意力层、交叉注意力层、空间 MoE 层和时间 MoE 层。空间 MoE 负责描述特定图像区域中的不同文本概念而时间 MoE 处理不同的扩散时间步长。每个块都使用边缘监督交叉注意力学习来进一步提高图像质量。 (b) 显示了 space-MoE 的详细信息。例如给定提示“天空下有毛茸茸的熊”每个文本标记及其相应的图像区域由二进制掩模给出都通过不同的空间专家进行引导即每个专家都学习一个区域的特定视觉特征。通过堆叠多个空间 MoE我们可以轻松学习描述数千个文本概念。
6月
1日Snap 研究院推出最新高性能 Stable Diffusion 模型-SnapFusion主要是对 UNet 进行优化还提出一种 CFG-aware 蒸馏损失函数在 iPhone 14 Pro 上实现 2 秒出图512x512)且比 SD-v1.5 取得更好的 CLIP score。 这也是目前在移动端出图最快的 同日Wuerstchen被提出其团队开发了一种潜在扩散技术这种高度压缩的图像表示提供了更详细的指导这显着降低了实现最先进结果的计算要求能够以两倍以上的速度执行推理。
19日美图发布基于扩散模型的视觉大模型MiracleVision运用零样本学习算法利用类别的高维语义特征代替样本的低维特征使得训练出来的模型具有迁移性。
7月
12日Kandinsky 2.2 对其前身 Kandinsky 2.1 进行了重大改进引入了新的、更强大的图像编码器 - CLIP-ViT-G 和 ControlNet 支持。
在去年谷歌提出了DreamBooth是我们微调SD的方法之一时隔8月谷歌在7月13日又提出了HyperDreamBooth,但开源工作还得靠大家。它能通过超网络和快速微调实现高效的个性化生成减小模型大小并提高生成速度。 14日Meta在官网公布了CM3leon首个基于Transformer的多模态自回归模型。我们前面看到更改Transformer的扩散模型而这里是自回归。CM3leon采用的是完全不同的方法它利用注意力机制来权衡输入数据无论是文本还是图像的相关性。Transformer结构的好处是什么并行啊而且训练的计算量还比此前基于 Transformer 的方法少了五倍。 从这张图可以看见CM3leon赢麻了。要是开源就更好了
CM3leon还使用SFT训练SFT已在ChatGPT训练中得到认证。果然取经还得去NLP。 27日Stability AI正式公布最新的开源绘图模型——SDXL1.0其实最早在4月就发布6月推出0.9的研究版本。Stable Diffusion XL已经超越了先前发布的各种版本的Stable Diffusion并且与当前未开源的文生图SOTA模型如midjorney具有不相上下的效果。 Stable Diffusion XL是一个二阶段的级联扩散模型包括Base模型和Refiner模型。其中Base模型就是原来的SD而原来的模型有时会产生局部质量较低的样本因此接入了Refiner模型在同一潜在空间中训练一个单独的 LDM该 LDM 专门用于高质量、高分辨率数据并采用SDEdit在Base模型的样本上引入的噪声去噪过程。
SDXL使用了更大的backbone参数量大约为之前版本的SD的3倍。
9月
9月DALL-E 3基于DALL-E 2 和 ChatGPT的文生图模型同时发布的还有GPT-4 Turbo现在大家用的GPT4多模态功能中的绘图功能没错用的就是DALL-E 3。
在前面我们说过DALL-E 3 模型架构基于扩散模型它同时还继承transformer架构使用 T5 XXL 文本编码器来处理输入文本。
此外DALL-E 3 论文还提出一个定制的图像字幕生成器(image captioner)来为训练数据集生成改进的字幕这显着增强了模型的提示跟踪能力。这有什么用呢你可以想想有时候你的提示词真的生成了你想要的图片了吗这个工作就是做了这方面的探索。
10月
6日站在OpenAI的肩膀上清华大学交叉信息研究院的研究者提出Latent Consistency Models潜在一致性模型采用一致性蒸馏Latent Consistency DistillationLCD的方法在SD模型的基础上蒸馏加速后的基础模型或LoRA模型。
LCD在潜在空间中进行利用自动编码器将高维图像数据转换为低维潜在向量并通过解码重构图像来降低计算负担并合成高分辨率图像。LCM集成了无分类器引导到其过程中采用单阶段引导蒸馏方法并使用跳步技术加速收敛。LCF是一种微调方法用于在定制化数据集上高效进行推断。此外LCM中的采样算法与传统多步采样不同它直接预测增强轨迹的起点从而实现单步样本生成以提高图像质量。
10日Adobe的Firefly2萤火虫2号出场提升了图像质量引入矢量图生成功能。
23日苹果提出了俄罗斯套娃式扩散模型Matryoshka Diffusion ModelsMDM一种用于高分辨率图像和视频合成的端到端框架。MDM的主要创新之处在于其能够在多个分辨率上联合去噪输入并采用了一种嵌套式的UNet架构。MDM通过在扩展空间中引入多分辨率扩散过程在此过程中学习单一扩散过程与层级结构使得MDM能够同时生成多种分辨率的图像。MDM还采用了正常去噪目标在多个分辨率上进行联合训练并使用渐进式训练技术逐步将更高分辨率加入训练目标中从而加快了整体收敛速度。此外MDM的NestedUNet架构将所有分辨率的潜在变量组合在一个去噪函数中形成一个嵌套结构共享多尺度计算简化了高分辨率生成的学习过程。 11月
相对上面的LCM代码开源2日谷歌提出了UFOGen,一种能极速采样的扩散模型变种UFOGen采用混合方法将扩散模型与GAN相结合。利用新的diffusion-GAN和预训练扩散模型的初始化UFOGen可以在单步中根据文本描述生成高质量图像。 于是就有目前提升扩散模型的生成速度的5条路 设计更加高效的数值计算方法硬解ODE常微分方程比如清华朱军团队提出DPM-Solver利用知识蒸馏ODE比如LCM量化换结构扩散与GAN结合 28日Stability AI在官网发布了开源文生图模型SDXL Turbo可以做到文本生成图片实时响应比LCM还快。SDXL Turbo是基于SDXL 1.0迭代而成使用了全新的对抗扩散蒸馏技术Adversaral Diffusion Distillatio,ADD所需图像的生成步骤从50步减少到1步并且不会损坏图片的质量。
ADD 采用两种类型的蒸馏损失首先是对抗性损失(adversarial loss)其中鉴别器的任务是区分生成的图像和真实图像其次是传统的蒸馏损失它将学生模型的输出与教师模型的输出对齐 12月
15日谷歌发布Imagen2图像逼真程度达到新高度。同样也是扩散模型。 21日Midjorney V6出世图像质量更好语言理解能力更强。
思考与总结
2023的文生图很卷我在上面尽可能地列举了很多架构如果不是创新就没有出现在上面。 当然大家如果还看见其它文生图方面的创新在本文并没有列出可以在底下回复我将会进行相应的补充。 这仅仅是算法层面在应用层面以主流的扩散模型为例如果你去搜索相关扩散模型论文你会发现围绕扩散模型的应用真的很多很多。
目前文生图还是有许多技术难点等待攻破实际上终究难逃3个要素算法算力数据集。
算法的提出就是为了图片生成速度更快图片的质量更高这是肯定的但你看现在的图片都是固定尺寸产生的如果我想生成300x200呢
再说数据集大家肯定都知道前段时间有2个新闻1是字节被爆用了ChatGPT训练2是谷歌Gemini被爆中文语料用文心一言数据集永远是不够的而数据集的开源工作实在是太少了。
最后说说算力实际上上面也有工作在做扩散模型的加速工作在当前大模型大爆发的时代算力资源尤其缺乏这往往也是模型落地的一大阻碍。所以如何让文生图在有限的算力上运行呢比如在2080TI上比如在内存只有2GB的56年前的老显卡上可能老的显卡就是无法运行我希望我们有时候看到的不是又出什么模型效果多么好普通显卡能运行吗而是模型的运行下限又被攻破了我们可以在更低算力的显卡上跑了
在当前AI创业搞得如火如荼许多创业公司可基于Stable Diffusion基础版本进行进一步调优和个性化数据训练其实我感觉文生图领域的商业模式有待讨论因为说到SD现在大家只要买个RTX3090也能跑甚至在手机上也能买卖的群体只有小白以及显卡算力不足的用户只图个方便没有其它引用用户的地方。其实说实话当文生图深入我们的生活时候这种热度自然而然就淡下去了最后留下来的公司只有少数当然你搞个性化数据也没有用生成的图片终究到用户手上终有勇士把这些收集起来重新训练公开出去所以搞文生图且用SD创业的公司存活率我认为不是很高没有属于自己的核心技术终究无法有自己的地位。
好了本文的介绍内容就这么多如果上面的内容有任何不对欢迎大家的指出。
参考文献
AIGC专题报告从文生图到文生视频技术框架与商业化-国海证券https://zhuanlan.zhihu.com/p/669353808https://zhuanlan.zhihu.com/p/660924126https://zhuanlan.zhihu.com/p/646831196https://news.adobe.com/news/news-details/2023/Adobe-Releases-Next-Generation-of-Firefly-Models/default.aspxhttps://cloud.google.com/blog/products/ai-machine-learning/imagen-2-on-vertex-ai-is-now-generally-availablehttps://www.zhihu.com/column/c_1631303321183805441