唐山网站制作,营销型网站备案,18末年禁止3000部在线,网站推广网站策划之前已经和大家介绍过InstantID相关相关的文章#xff0c;感兴趣的小伙伴可以点击下面链接进行阅读#xff5e;
无缝衔接Stable Diffusion#xff0c;一张照片几秒钟就能生成个性化图片-InstantID_instant-id 模型-CSDN博客
今天向大家介绍Ins…之前已经和大家介绍过InstantID相关相关的文章感兴趣的小伙伴可以点击下面链接进行阅读
无缝衔接Stable Diffusion一张照片几秒钟就能生成个性化图片-InstantID_instant-id 模型-CSDN博客
今天向大家介绍InstantID作者的新项目-InstantStyle一个强化版的IPapadter。一定程度解决了风格泄露的问题同时也避免了繁琐的权重调整。
InstantStyle是一个通用框架它采用了两种简单而有效的技术来实现从参考图像中有效地分离风格和内容。 相关链接
论文链接https://arxiv.org/pdf/2404.02733.pdf 项目地址https://github.com/InstantStyle/InstantStyle
论文阅读 摘要
基于调整自由扩散的模型在图像个性化和定制领域显示出巨大的潜力。然而尽管取得了显著进展目前的模式仍在继续努力应对制作风格一致性的几个复杂挑战图像生成。
首先“风格”的概念本质上是不确定的包含了多种元素如颜色、材料、氛围、设计和结构等。其次基于反演的方法容易出现风格退化往往导致损失细粒度细节。最后基于适配器的方法经常需要对每个参考图像进行细致的权重调整以实现风格强度和文本可控性之间的平衡。
在本文中我们从研究几个引人注目但经常被忽视的问题开始观察。然后我们介绍InstantStyle框架旨在通过实施两个关键来解决这些问题 策略 一种直接的机制将风格和内容与特征空间内的参考图像解耦基于假设同一空间内的特征可以添加到或彼此相减。 参考图像特征的注入专门放入样式特定的块中从而防止样式泄漏和避免了繁琐的权重调整的需要这通常是参数较多的设计的特点。
我们的工作表现出卓越视觉风格化的结果在风格的强度和文本元素的可控性之间取得最佳平衡。
方法 InstantStyle的IP-Adapter概述:有11个 具有SDXL的Transformer块4个用于下采样块1个用于中间块6个用于上采样块。第4块和第6块分别对应于布局和样式。大多数时候第6个块足以捕捉风格第4个块只有在在某些情况下布局是样式的一部分。此外还可选择使用CLIP的特征以明确地从特征空间中减去内容。
实验
定性结果
给定单一风格的参考图像而不同提示作品达到高风格一致性生成。 给定单一风格的参考图像和不同的提示实现了高度风格一致性的生成 基于图像的图像样式化
采用ControlNet (Canny)来实现基于图像的风格化与空间控制。 和之前工作比较
对于基线将方法与最近最先进的样式化方法进行比较包括StyleAlignSwapping Self-AttentionB-LoRA和original IP-Adapter与权重调整。对于B-LoRA在单参考上进行训练 使用官方培训设置样式图像。 减法的效果
从最初的IP-Adapter开始我们通过逐步增加减法的规模来系统地删除内容。当我们通过这种方法内容泄漏的问题得到了有效的缓解。 每种策略的效果
以原始IP-Adapter为基准 从图像嵌入中减去内容嵌入减轻了内容泄漏但是仍然需要手动调整重量。 只在样式块中注入图像特征表现最好。 在样式块和布局块中注入图像特征可以处理一些特殊的情况其中空间构成也是一种风格。 总结
这项工作中提出一个通用框架-InstantStyle探索了两个从参考图像中获取风格和内容的简单而有效的技术。InstantStyle揭示了特定注意力层的特征从ground-up已经证明并非所有层的贡献都是相等的这些见解可以启发后续模型的训练。适配器和LoRA方法可以从参数的减少中受益以减轻过拟合和防止不必要的信息泄露。