张家港建网站费用,深圳网站开发技术,济南网页设计,如何制作个人主页人工智能咨询培训老师叶梓 转载标明出处 文本到图像生成技术的核心目标是教会预训练模型根据输入的文本提示生成具有特定主题和风格的新颖图像。尽管已有多种微调技术被提出#xff0c;但它们在同时处理个性化和风格化方面仍存在不足#xff0c;导致生成的图像在个人身份和风…人工智能咨询培训老师叶梓 转载标明出处 文本到图像生成技术的核心目标是教会预训练模型根据输入的文本提示生成具有特定主题和风格的新颖图像。尽管已有多种微调技术被提出但它们在同时处理个性化和风格化方面仍存在不足导致生成的图像在个人身份和风格概念上出现不一致。
为了克服现有方法的局限性华为的研究团队提出了块级LoRA方法。这种方法通过在Stable DiffusionSD模型的不同块上执行细粒度的低秩微调生成与输入提示相符、目标身份明确且具有期望风格的图像。通过大量实验研究团队证明了块级LoRA方法的有效性。
方法
之前提出的图像生成T2I个性化和风格化的方法是基于文本反演的方法将文本信息反向转换为个性化的视觉表示增强基于扩散的生成模型的适应性和定制性。DreamBooth及其后续方法通过优化整个SD网络权重来学习特定主题的先验从而在输出图像中实现更高的主题保真度。与此不同以LoRA为代表的方法是通过不同的重新参数化解决了这一任务这更为轻量级和高效。
LoRA最初是作为NLP领域大模型的微调方法提出的后来被引入到SD模型中用于高效的图像生成T2I。LoRA指出预训练模型的权重矩阵具有低内在特征维度因此可以将模型的权重更新分解为两个低维矩阵。在微调过程中原始权重被冻结只有矩阵A和B是可调的。这样前向计算过程可以更新为h W0x BAx其中h是输出特征图。
块级LoRA方法是对现有的LoRALow-Rank Adaptation方法的一种改进目的是为了解决在结合不同类型的全块微调LoRAs时生成结果不满意的问题。
通常SDStable Diffusion的LoRA是通过在U-Net的所有块上执行低秩微调来实现的这包括了LoConLoRA for Convolution Network中进一步涉及的卷积层。然而当将这些全块微调的LoRAs用于T2I生成时往往得到的生成结果并不令人满意。为了改善这种情况研究者们专注于研究U-Net的哪些部分应该进行微调以实现更好的个性化和风格化。具体如下
通过将LoRA矩阵的秩设置为零可以跳过当前块的LoRA微调。这样SD就会使用原始的预训练权重而不是添加LoRA的权重。公式(2)展示了这一过程其中ℎ是输出特征图是预训练的权重B 和 A 是LoRA中的低秩矩阵。
为了控制SD中U-Net的不同部分进行LoRA微调研究者们将U-Net划分为几个部分如图1所示。这包括四个内部块in-blocks、一个中间块mid-block和四个外部块out-blocks。通过这种设计可以对U-Net的不同块执行细粒度的低秩微调并分别评估不同设置在个性化和风格化任务中的生成性能。 实验
实验使用了多种数据集其中包括Manga Face Dataset作为漫画风格LoRA的训练数据集。对于其他风格LoRA和角色LoRA作者使用了自定义的训练数据集。每个数据集包含20张图像每张图像重复25次并伴有大约500张由基础模型生成的正则化图像。这一设置旨在增强模型的泛化能力并减少过拟合的风险。
在训练过程中研究者采用了Stable Diffusion 1.4作为基础的T2I生成模型并设置了11,000步的微调步骤和2的批量大小。在推理阶段使用了DPM 2M Karras作为采样器采样步数为25无分类器引导CFG的比例设为7.0生成图像的分辨率与训练图像保持一致。为了进行公平比较所有方法的推理提示和超参数都保持固定。 研究者将块级微调方法与原始的LoRA/LoCon方法进行了比较如图2和图3所示。实验结果显示块级LoRA/LoCon模型在个性化和风格化方面的表现优于LoRA/LoCon模型。LoRA/LoCon在生成具有目标风格的图像方面失败了而块级LoRA/LoCon微调在个性化方面具有明显优势。
在消融研究中研究者评估了三种不同类型的角色LoCon和风格LoCon的组合性能。每种块级LoCon组合都可以混合角色和风格。然而如图4(a)所示块级ID LoCon与风格LoCon的组合风格与风格LoCon输入不匹配块级ID LoCon与块级风格LoCon的组合丢失了太多角色的个人细节。说明ID LoCon与块级风格LoCon的组合在消融研究中表现最佳它不仅能够保持角色的个人细节还能像LoCon输入一样改变绘画风格。 研究者还探索了在ID LoCon与块级LoCon的组合中应该保留哪些块。他们将块级LoCon块均匀地分成三部分在每次训练过程中激活其中一部分。如图1所示上部块是In-Block0 Out-Block3中部块是In-Block1 Out-Block2下部块是In-Block2 Out-Block1。图4(b)提供了结果。可以看到仅激活上部块时即顶部输入块和顶部输出块输出图像完美地保持了角色的细节和风格。仅激活中部块时输出失去了风格但角色的细节更多地显示在图片中。当仅激活下部块时所有目标信息和概念都缺失了。
通过这些详细的实验设置和结果分析展示了块级LoRA方法在提高文本到图像生成任务的个性化和风格化方面的有效性。
论文链接https://arxiv.org/abs/2403.07500
项目链接https://github.com/cloneofsimo/lora