网站最好推广的方式,一个网站多大空间,淘宝开店网站怎么做,wordpress 拒绝访问前言
本文总结深度学习领域的图像风格迁移发展脉络。重点关注随着GAN、CUT、StyleGAN、CLIP、Diffusion Model 这些网络出现以来#xff0c;图像风格迁移在其上的发展。本文注重这些网络对图像风格迁移任务的影响#xff0c;以及背后的关键技术和研究#xff0c;并总结出一…前言
本文总结深度学习领域的图像风格迁移发展脉络。重点关注随着GAN、CUT、StyleGAN、CLIP、Diffusion Model 这些网络出现以来图像风格迁移在其上的发展。本文注重这些网络对图像风格迁移任务的影响以及背后的关键技术和研究并总结出一些经典论文作为学习参考。
目录
Optimization-based Neural Style Transfer 基础结构AdaIN 基于GAN的风格迁移 基础结构CycleGANloss优化 水墨画风景画卡通画人脸肖像画 CUT对比学习StarGAN 多域风格迁移 基于StyleGAN的风格迁移 基础结构风格迁移实现few-shot style transfer Fixation and AdaptationLatent Space AdaptationJoJoGAN 基于自然语言语义信息textual指导的风格迁移 CLIP语义信息textual指导风格迁移 CLIPStyleOne-Shot Adaptation of GAN in Just One CLIPStyleGAN-NADA 基于Diffusion Model的风格迁移 基础结构风格迁移实现 DISENTANGLED STYLE AND CONTENT REPRESENTATIONInversion-BasedProSpectT2I-Adapter 其余论文
Optimization-based Neural Style Transfer
基础结构
A Neural Algorithm of Artistic Style 2015 基于具有一定图像理解能力的VGG-16网络对内容图像和风格图像进行特征提取再根据这些特征的一阶特征矩阵轮廓构建content-loss根据二阶特征矩阵风格纹理构建style-loss使得新生成的图像内容符合内容图像、风格符合风格图像 两个损失分别负责内容和风格生成的任务可以生成质量较好的风格化图像但具有以下缺点 1每张内容/风格图像都要重新训练网络训练时长也不短 2训练不稳定很容易出现模式坍塌、过拟合等情况 3实用场景局限
AdaIN
Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization 2017
在依据图像特征构建损失的过程中有研究人员发现VGG网络中特征的均值/方差代表了风格在构建损失前对图像特征进行去风格化去除均值/方差对网络学习效果和速度有很大的提升
可以看到Instance Norm是先去风格化再构建损失的曲线收敛快、效果好; AdaIN方法在图像风格迁移任务中被广泛应用在后续网络中都有运用
基于GAN的风格迁移
基础结构
Generative Adversarial Nets 2014 ‘最锋利的剑与最坚固的盾’ 相互对抗使得生成器能够从一个噪声空间中学习到向目标图像域的映射最终生成器能够不断生成我们需要的图像 直接利用在风格迁移对预训练好的生成器微调数据集换成风格图像微调较少的epoch即将原域图像映射到风格图像域中 基于GAN的风格迁移缺点 1模式坍塌、过拟合当生成器‘记住’少数几幅风格图像生成时将这些图像复制输出则‘最锋利的剑与最坚固的盾’的机制将无法再约束模型解决CycleGAN、CUT 2Random noise 是一个抽象数学域无法有效控制解决StyleGAN、CycleGAN
CycleGAN
Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks 2020 使用两组生成器/鉴别器分别完成原域/目标域相互的转换这样不仅可以保证输出结果是可控的也通过循环一致性使得‘最锋利的剑与最坚固的盾’ 对抗机制持续有效网络无法‘记住’风格图像需要将输出图像重新转换到原域
loss优化
仅仅通过对抗机制的损失约束模型在特定艺术风格领域生成效果无法做到最好通常需要额外的损失增强模型学习能力
水墨画
水墨画线条、笔画模糊损失 ChipGAN: A Generative Adversarial Network for Chinese Ink Wash Painting Style Transfer 2018
风景画
风景画边缘损失 End-to-End Chinese Landscape Painting Creation Using Generative Adversarial Networks 2020 卡通画
卡通画结构损失、纹理模糊损失、色彩损失 Learning to Cartoonize Using White-box Cartoon Representations 2020 人脸肖像画
人脸肖像画边缘损失、基于细粒度鉴别器的五官约束损失 Unpaired Portrait Drawing Generation via Asymmetric Cycle Mapping 2020 CUT
Contrastive Learning for Unpaired Image-to-Image Translation 2020 在GAN的基础上引入特征之间的对比损失对encoder端的特征按patch划分然后相同部位的patch应当拉近距离而不同部位的patch则推远此方法对于保存原域特征十分有效且对比损失会利于特征解耦有利于特征向目标域映射
1对比学习的思想在后续研究中都会有涉及StyleGAN、Diffusion Model 2对比学习在特定艺术风格迁移任务上也需要辅助的loss设计如上
StarGAN 多域风格迁移
StarGAN v2: Diverse Image Synthesis for Multiple Domains 2020 以往的研究都是完成单个域之间的转换如 马斑马人脸笑脸人脸哭脸有两个缺点 1每两个单域的转换都需要训练一个网络实用受限 2许多转换任务应当是可以共享参数资源的如人脸表情的转换
因此starGAN提出在风格迁移任务中用域标签标定多个目标域在网络设计和损失中增加多域分类的任务使得网络可以根据特定的域标签实现向目标域的风格迁移
最终一个主干网络、多个子目标域对应的模块即可实现单个域向多个目标域的风格迁移但是仍然有很大的提升空间
风格迁移的域仍然是有限的想实现更细致的转化还是很难如在伤心脸和哭脸中 间应当还有很多种状态而不是简单的跳变风格style空间的定义仍然是一个不可控的域无法观察到特征变化与实质结果的对 照无法对这个style空间进一步控制
基于StyleGAN的风格迁移
基础结构
A Style-Based Generator Architecture for Generative Adversarial Networks 2020 1与传统GAN中latent是随机不可控噪声不同StyleGAN用一个Mapping网络将latent映射到一个18*512的向量空间这个向量空间是可解释、可控的对应着生成图像各个层次的风格特征 2原先的随机噪声由另一端B引入且同样分多层引入以实现多层次的风格控制生成Noise与上层输出合并后经过AdaIN去风格化以使得A实现对style的控制 3网络结构更大、层数更多大量数据训练后有强大的生成能力 风格控制能力替换原图像的某几层latent为目标图的以实现多层次的控制如上图StyleGAN的风格控制是分层次的、且接近线性的可实现不同程度的控制如粗粒度对应性别和脸型、中粒度对应脸部特征、细粒度对应皮肤纹理
问题StyleGAN的风格控制/迁移只能在其原先的域内完成如表情/脸型的变化当想往Latent域外迁移时则做不到如实现 人脸素描
风格迁移
使用StyleGAN实现向Latent域外迁移与GAN中的方法一样通过鉴别器、特定损失设计、对比损失等进行约束训练模式与普通的GAN相似
由于预训练好的StyleGAN大模型雏形已经有很强的图像表征能力了因此在实现风格迁移时往往不需要大量目标域图像研究重点往往放在few-shot style transfer上使用5-10张目标域的图像对StyleGAN进行微调使其生成的图像符合目标域特征
few-shot style transfer
使用StyleGAN微调以实现风格迁移关键难点在于 1从少量风格图像中充分利用风格特征信息 2保持StyleGAN原域结构不破坏防止StyleGAN‘记住’少量风格图像欺骗鉴别器而不去微调完成风格迁移的任务
Fixation and Adaptation
(1) 固定一个StyleGAN微调另一个在输出端运用细粒度的鉴别器以充分利用风格信息对称生成图像的特征层用KL散度损失以约束StyleGAN原域的结构
Few-shot Image Generation via Cross-domain Correspondence 2021 (2) 对微调前后的StyleGAN中相同层的self-correlation矩阵进行一致性约束以确保原域结构不破坏微调前后输出图像的Latent相互关系约束对齐以保持StyleGAN原域结构细粒度的鉴别器充分学习风格特征
Few shot generative model adaption via relaxed spatial structural alignment 2022 (3) 与前两个方法相似但是引入CUT对比损失加强风格学习能力
CtlGAN: Few-shot Artistic Portraits Generation with Contrastive Transfer Learning 2022 A Closer Look at Few-shot Image Generation 2022 Latent Space Adaptation
不微调StyleGAN网络的参数而是用一个Adaptor网络学习Latent Space的映射将原域的Latent Space映射到目标域以实现风格迁移这个方法基本不破坏StyleGAN原域的结构但是风格学习能力十分有限
ONE-SHOT GENERATIVE DOMAIN ADAPTATION 2021 JoJoGAN
JoJoGAN: One Shot Face Stylization 2022
小结
StyleGAN 风格迁移的总结
优点 1基于StyleGAN的风格迁移可以在少量数据下学习效果很好 2具有风格控制能力Latent Space迁移后的网络不同层输入的Latent可以控制使用原域或者目标域的以实现多层次的风格迁移控制
缺点 直接操作Latent Space控制生成还是需要一定的专业知识要懂得StyleGAN的结构才能完成
因此再进一步的研究目标应该是让这个风格控制可以通过自然语言控制
基于自然语言语义信息textual指导的风格迁移
CLIP
Learning Transferable Visual Models From Natural Language Supervision 2021 原始的CLIP基于对比学习在大量图-文对数据上进行训练让图像特征和文本特征在同一个向量空间中对齐这个空间包含了图像和文本域的相关信息因此我们可以根据自然语言得到其在图像层面的特征进一步控制风格迁移的过程
发展的CLIP预训练数据越来越多特征对齐完成度很高文本信息能够和多层次的图像特征对齐在控制风格迁移时效果越来越好
语义信息textual指导风格迁移
基本思想对于原域和目标域有准确的文本描述网络输出图像和原域图像在CLIP向量空间中的距离应当与文本的距离一样这个过程用对比损失约束
语义信息的约束关键在输出端构建损失而网络是不受限制的可以是最初始的VGG、CycleGAN也可以是StyleGAN
(1) CLIPstyler: Image Style Transfer with a Single Text Condition 2022 (2) 在StyleGAN风格迁移上引入CLIP增强效果原先训练模式和结构不变
One-Shot Adaptation of GAN in Just One CLIP 2022 (3) 没有使用风格图像直接依靠CLIP的语义对齐能力通过文本指导风格迁移
StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators 2022 基于Diffusion Model的风格迁移
相比于StyleGANDiffusion Model的图像生成能力进一步增强且图像生成的控制约束不再通过特定的损失loss而是解耦成一些conditiontextual信息、辅助图像特征等对于Latent Space的控制更强、实用性更高
基础结构
原始的Diffusion Model Diffusion Models Beat GANs on Image Synthesis NeurlIPS 2021 不像GAN模型那样研究从噪声中逐渐生成完整图像而是每一步都给原图像加随机噪声再通过网络从加噪后的图像中还原出噪声重复500-1000个steps网络对图像多层次的特征都能学习到并且能够对这些特征进行 ‘反扩散’ 也即控制
优化增强的Diffusion Model High-Resolution Image Synthesis with Latent Diffusion Models 2022 1不在原本的像素空间上建模扩散模型而是构建出一个 Latent Space增强模型能力 2网络对噪声的预测过程中增加若干控制信号 condition通过Transformer的交叉注意力机制进行学习 3这里的condition可以是 CLIP 编码的 textual 信息基于文本的图像生成、风格图像风格迁移的实现、Semantic Map图像分割的实现
风格迁移实现
将风格图像嵌入为 condition微调扩散模型使得扩散模型能够学习到风格condition
(1) 基于目标图像的 condition、对比损失优化微调模型实现风格迁移
DIFFUSION-BASED IMAGE TRANSLATION USING DIS- ENTANGLED STYLE AND CONTENT REPRESENTATION 2022 (2) 将图像通过 CLIP 编码得到特征 condition再通过一个额外的Attention层优化
Inversion-Based Creativity Transfer with Diffusion Models 2022 (3) 研究不同step对于生成图像的控制对应StyleGAN中不同层的控制将condition分解成若干个控制向量以实现细致的风格迁移与控制
ProSpect: Expanded Conditioning for the Personalization of Attribute-aware Image Generation 2023 上述三个方法思路相似通过目标域图像的 condition 微调扩散模型参数以实现风格迁移对应 StyleGAN 中的 Fixation and Adaptation下述方法不微调模型而是通过调整 Latent Space 的分布以实现风格迁移对应 StyleGAN 中的 Adaptor
(4) 通过额外接入 Adaptor 引入 condition不调整模型参数而是让 Adaptor 学习怎样产生符合扩散模型需求的控制向量 condition
T2I-Adapter: Learning Adapters to Dig out More Controllable Ability for Text-to-Image Diffusion Models 2023 其余论文
(1) 通过 ChatGPT 增强文本提示并构建对比损失模型更稳健提出 cross-attention guidance观察到 Transformer 中的 cross-attention map 对应了生成图的结构因此尽力保存这个map的一致
Zero-shot Image-to-Image Translation 2023
(2) 增多Diffusion Model中的condition条件实现对图像的多层次信息控制
Composer: Creative and Controllable Image Synthesis with Composable Conditions 2023