电子商务网站上线活动策划,wordpress5.0编辑器是英文,网站建设中首页模板下载,大连网站建设-网龙科技摘要#xff1a;
提出了一种方法#xff0c;用于教导生成模型根据人类编写的指令进行图像编辑#xff1a;给定一张输入图像和一条书面指令#xff0c;模型按照指令对图像进行编辑。
由于为此任务获取大规模训练数据非常困难#xff0c;我们提出了一种生成配对数据集的方…
摘要
提出了一种方法用于教导生成模型根据人类编写的指令进行图像编辑给定一张输入图像和一条书面指令模型按照指令对图像进行编辑。
由于为此任务获取大规模训练数据非常困难我们提出了一种生成配对数据集的方法结合了两个大型预训练模型
语言模型GPT-3文本到图像模型Stable Diffusion。
这两个模型捕捉了关于语言和图像的互补知识可以组合起来生成配对训练数据用于同时涉及这两种模态的任务。
我们利用生成的配对数据训练了一个条件扩散模型该模型给定输入图像和文本指令后生成编辑后的图像。
模型在前向传播过程中直接执行图像编辑且不需要额外的图像示例、输入/输出图像的完整描述或每个实例的微调。
1. 研究背景 图像编辑的挑战 传统的图像编辑模型依赖于大量有监督的数据来指导模型生成这通常需要提供 “原始图像-编辑后图像”对导致数据标注成本极高。这些模型通常缺乏灵活性专门针对特定的编辑任务如上色、修复等不能广泛适应不同的编辑需求。 生成模型的局限性 虽然一些文本到图像的生成模型如 DALLE-2本身具有图像编辑功能如图像变化、区域填充但它们在进行目标编辑时较为困难因为相似的文本提示并不能保证产生相似的图像。Prompt-to-Prompt 方法解决了这一问题通过将生成的图像与相似的文本提示联系起来使得图像可以进行独立编辑。 多模型组合 近年来的研究发现多个大型预训练模型的结合能够有效解决一些单一模型无法完成的多模态任务如图像描述和视觉问答。这些方法包括联合微调、通过提示信息进行通信、模型间的反馈引导等。我们的方法与这些研究相似结合了 GPT-3 和 Stable Diffusion 这两个互补能力强大的模型但与以往的研究不同我们通过这两种模型生成配对的多模态训练数据。 扩散模型 在 扩散模型如 Stable Diffusion方面的进展推动了图像合成、视频、音频、文本等多模态生成模型的突破。文本到图像的扩散模型如 Stable Diffusion能够根据任意文本描述生成逼真的图像。 与现有方法的对比 现有的一些编辑方法如 SDEdit主要是用于编辑真实图像通常通过加噪和去噪来调整输入图像并生成新的图像。然而 InstructPix2Pix 方法不同它只依赖 单张图像 和 一条编辑指令通过前向传播直接进行图像编辑无需额外的用户手绘掩码或其他图像这使得编辑过程更加简便和高效。 研究目标 本研究的目标是开发 InstructPix2Pix 模型能够在不依赖大量人工标注数据的情况下通过自然语言指令进行灵活多样的图像编辑。这一目标对于非结构化的编辑任务尤为重要因为用户可以通过自然语言直接描述编辑需求避免了复杂的手动调整极大地提升了图像编辑的便利性和灵活性。 2. 数据生成生成配对的训练数据集
我们结合了两种大型预训练模型的能力——一个用于语言处理的大型语言模型GPT-3和一个文本到图像的模型StableDiffusion——来生成包含文本编辑指令及其对应的编辑前后图像的多模态训练数据集。以下是这个过程的两个关键步骤
2.1 生成指令和配对标题
首先我们在文本领域操作利用大型语言模型根据图像描述生成编辑指令和编辑后的文本描述。例如给定输入标题“女孩骑马的照片”语言模型可以生成编辑指令“让她骑龙”以及修改后的输出标题“女孩骑龙的照片”。这种方式允许我们生成大量多样化的编辑同时保持图像变化与文本指令之间的对应关系。 为此我们对GPT-3进行了微调训练数据来自于人类编写的编辑三元组1) 输入标题2) 编辑指令3) 输出标题。训练数据由700个来自LAION-Aesthetics V2 6.5数据集的输入标题及手动编写的指令和输出标题组成。通过微调GPT-3 Davinci模型一轮我们的模型能够生成既富有创意又合理的指令和标题。最终生成的数据集包含454,445个样本。
2.2 从配对标题生成配对图像
接下来我们使用预训练的文本到图像模型如StableDiffusion将一对标题编辑前后的描述转换为一对对应的图像。然而文本到图像模型在生成图像时可能会因为提示的微小变化而生成差异很大的图像。例如“一只猫的照片”和“一只黑猫的照片”可能生成完全不同的图像这对于我们训练编辑图像的模型并不适用。 为了解决这一问题我们采用了Prompt-to-Prompt方法这种方法通过在去噪过程中的交叉注意力权重共享来保证生成的图像在风格和内容上具有高度一致性。这可以确保生成的图像在相似性上保持一致满足训练需求。 此外不同的编辑可能会对图像产生不同程度的变化。因此我们通过调节去噪步骤中共享注意力权重的比例即p值来控制图像对之间的相似度。为寻找合适的p值我们为每对标题生成100个图像对并通过CLIP空间中的方向相似度度量衡量图像变化一致性对这些图像对进行过滤从而保证图像对的多样性和质量提升数据生成的可靠性。
3. 模型结构InstructPix2Pix的设计
InstructPix2Pix模型的核心就是通过一个强大的扩散模型结合图像和文本指令来编辑图像。在生成过程中模型不仅学会如何去噪也学会如何根据不同的条件图像、文本调整图像使得最终的生成图像既符合输入图像也符合给定的文本指令。通过“无分类器引导”我们可以在多样性和质量之间找到一个平衡。
3.1 扩散模型的基本原理
扩散模型的目标是通过逐步去噪生成数据。简单来说扩散模型从一个随机噪声开始然后逐步去除噪声来生成图像。这个过程通过一个自编码器实现
编码器EncoderE将图像压缩成潜在表示latent representation。解码器DecoderD将潜在表示转换回图像。
这个模型的核心目标是通过学习如何从噪声中恢复真实的图像数据来生成新图像。
3.2 潜在扩散模型Latent Diffusion
潜在扩散模型的一个重要改进是它在潜在空间中工作而不是直接在图像空间中。这让它更加高效因为它减少了图像的复杂度并提高了生成质量。潜在空间是通过一个预训练的变分自编码器VAE获得的。
潜在空间图像通过编码器转换成一个较低维度的潜在表示latent representation然后在这个表示上进行去噪最后通过解码器重新生成图像。
3.3 InstructPix2Pix模型
InstructPix2Pix是基于上述潜在扩散模型的并增加了“编辑图像”的功能。它的目标是根据文本指令修改图像。 例如给定一个图像描述比如“女孩骑马”模型可以通过添加指令例如“让她骑龙”来改变原始图像生成一个新的图像“女孩骑龙”。
3.3.1 模型如何工作
图像和文本条件InstructPix2Pix模型不仅输入图像如“女孩骑马”还输入文本指令如“让她骑龙”。噪声预测模型的任务是根据图像和指令预测噪声并去除它从而改变图像。它通过在潜在空间中处理图像的噪声来生成与指令相符的新图像。
3.3.2 无分类器引导Classifier-free Guidance
无分类器引导是一种方法用于控制模型生成图像时如何平衡图像的质量和多样性。基本思路是
条件去噪模型根据给定的条件图像和文本指令去生成图像。无条件去噪偶尔模型也需要生成“无条件”的图像也就是说在没有任何条件限制下生成图像。这样可以让生成的图像更具多样性。
通过调整“引导尺度”guidance scale我们可以控制生成的图像在多大程度上与输入条件图像和文本指令相匹配。 例如
sI控制图像与输入图像cI相符的程度。sT控制图像与文本指令cT相符的程度。
3.3.3 如何调整引导尺度sI 和 sT:
训练过程在训练时模型会有时只根据图像或指令去生成图像有时根据两者一起生成图像。通过这种方式模型学会如何平衡两者。推理过程在推理时调整sI和sT的值来控制生成图像的质量。例如当我们增加sI时生成的图像会更贴近原始图像增加sT时生成的图像会更贴近文本指令。
4. 结果
4.1 定性对比 本研究与两项相关工作的对比 SDEdit基于预训练的扩散模型进行图像编辑。输入部分噪声的图像去噪后生成编辑图像。缺点需要提供完整的图像描述而非简单的编辑指令。Text2Live通过文本提示生成颜色透明度增广层来编辑图像适用于增量编辑。缺点无法处理复杂的编辑类型。 结果 SDEdit 在处理风格变化较小的编辑时表现较好但在处理较大或更复杂的变化时难以保持图像的一致性例如物体分离、身份保持等。Text2Live 在处理加法图层如修改背景时效果不错但对于其他类型的编辑任务则受到限制。
4.2 定量对比 指标 CLIP图像嵌入余弦相似度衡量编辑后的图像与原始图像的相似度。方向性CLIP相似度衡量文本描述的变化与图像变化的一致性。 这两个指标是对立的增强编辑效果会导致与原图的相似度降低反之亦然。结果表明与 SDEdit 对比时本文方法在相同的方向性相似度下图像一致性 更高表现更优。
4.3 消融实验 数据集大小和过滤方法 数据集大小减少数据集的大小会导致模型在执行编辑时只能进行较小、细微的调整无法进行大范围的图像修改表现为高图像相似度但低方向性相似度。CLIP过滤去除CLIP过滤会导致编辑图像与输入图像的整体一致性降低。 分类器无关引导的影响 sT文本指令的引导尺度增大 sT 强化文本指令的影响使得输出图像更符合指令要求编辑效果更强。sI输入图像的引导尺度增大 sI 有助于保持输入图像的结构使输出图像更接近输入图像从而保持图像一致性。结果 在实际操作中通常通过调整 sT 和 sI 的值来平衡一致性与编辑强度。最佳的引导尺度范围是 sT5 到 10sI1 到 1.5
5. 主要局限性 生成数据集的视觉质量我们的模型依赖于生成数据集的视觉质量因此受到用于生成图像的扩散模型如Stable Diffusion的限制。 泛化能力的限制该方法在处理新的编辑指令时存在一定的局限性尤其是在图像变化与文本指令的关联上受到 GPT-3用于微调的人工编写指令的局限GPT-3生成指令和修改图像描述的能力的限制Prompt-to-Prompt方法修改生成图像的能力的限制。 空间推理和物体计数的困难模型在处理与物体计数和空间推理相关的指令时表现不佳例如“将它移到图像的左侧”“交换它们的位置”“将两个杯子放在桌子上一个放在椅子上” 等。 数据和模型的偏见由于模型和数据的偏见生成的图像可能会继承或引入这些偏见如图14所示。
未来的研究方向
空间推理的指令处理如何改进模型对空间推理指令的理解和执行。与用户交互结合的指令如何将指令与其他调节方式如用户交互结合以增强模型的灵活性。基于指令的图像编辑评估如何有效地评估基于指令的图像编辑结果。人类反馈的整合如何利用人类反馈改进模型未来可通过“人类在回路中的强化学习”策略来提高模型与人类意图的一致性。