当前位置: 首页 > news >正文

网站后台有安全狗个体工商户年报入口官网

网站后台有安全狗,个体工商户年报入口官网,网络公司业务,高端平面设计网站2024-arXiv-Lumiere: A Space-Time Diffusion Model for Video Generation Lumiere#xff1a;视频生成的时空扩散模型摘要1. 引言2. 相关工作3. Lumiere3.1 时空 U-Net (STUnet)3.2 空间超分辨率的多重扩散 4. 应用4.1 风格化生成4.2 条件生成 5. 评估和比较5.1 定性评估5.2 … 2024-arXiv-Lumiere: A Space-Time Diffusion Model for Video Generation Lumiere视频生成的时空扩散模型摘要1. 引言2. 相关工作3. Lumiere3.1 时空 U-Net (STUnet)3.2 空间超分辨率的多重扩散 4. 应用4.1 风格化生成4.2 条件生成 5. 评估和比较5.1 定性评估5.2 定量评估 6. 结论7. 社会影响致谢参考文献 Lumiere视频生成的时空扩散模型 作者Omer Bar-Tal, Hila Chefer, Omer Tov, Charles Herrmann, Roni Paiss, Shiran Zada, Ariel Ephrat, Junhwa Hur, Guanghui Liu, Amit Raj, Yuanzhen Li, Michael Rubinstein, Tomer Michaeli, Oliver Wang, Deqing Sun, Tali Dekel, Inbar Mosseri 单位Google Research, Weizmann Institute, Tel-Aviv University, Technion 论文地址https://arxiv.org/abs/2401.12945 图 1Lumiere 生成的示例结果包括文本到视频生成第一行、图像到视频第二行、风格参考生成和视频修复第三行边界框表示修复掩码区域。 摘要 我们引入了 Lumiere这是一种文本到视频的扩散模型旨在合成能够描绘真实、多样且连贯的运动的视频这是视频合成中的一项关键挑战。为此我们引入了一种时空 U-Net 架构该架构通过模型中的一次传递即可一次性生成视频的整个时间持续时间。这与现有的视频模型形成了鲜明对比现有的视频模型先合成远距离关键帧然后进行时间超分辨率处理这种方法本质上很难实现全局时间一致性。通过部署空间和重要的时间上下采样并利用预先训练的文本到图像扩散模型我们的模型学会通过在多个时空尺度上处理视频来直接生成全帧率、低分辨率的视频。我们展示了最先进的文本到视频生成结果并表明我们的设计可以轻松促进广泛的内容创建任务和视频编辑应用包括图像到视频、视频修复和风格化生成。 1. 引言 近年来图像生成模型取得了巨大进步。最先进的文本转图像T2I扩散模型现在能够合成符合复杂文本提示的高分辨率照片级逼真图像Saharia et al., 2022b; Ramesh et al., 2022; Rombach et al., 2022并允许广泛的图像编辑功能Po et al., 2023和其他下游用途。然而由于运动带来的额外复杂性训练大规模文本转视频T2V基础模型仍然是一个悬而未决的挑战。我们不仅对建模自然运动中的错误很敏感而且增加的时间数据维度在内存和计算要求以及学习这种更复杂分布所需的训练数据规模方面带来了重大挑战。因此虽然 T2V 模型正在迅速改进但现有模型在视频时长、整体视觉质量以及可生成的真实运动程度方面仍然受到限制。 现有 T2V 模型中流行的方法是采用级联设计其中基础模型生成远距离关键帧随后的时间超分辨率TSR模型在非重叠段中生成关键帧之间的缺失数据。虽然内存效率高但使用时间级联生成全局相干运动的能力本质上受到以下原因的限制i基础模型生成一组积极子采样的关键帧其中快速运动在时间上出现混叠因此变得模糊。iiTSR 模块受限于固定的、较小的时间上下文窗口因此无法在整个视频持续时间内一致地解决混叠模糊性图 2 中合成周期性运动例如步行的情况。iii级联训练方案通常会受到领域差距的影响其中 TSR 模型在真实的下采样视频帧上进行训练但在推理时用于插值生成的帧从而累积误差。 图 2**生成的视频中的时间一致性**。使用我们的模型和 ImagenVideoHo et al., 2022a生成的周期性运动视频的代表性示例。我们应用 Lumiere 图像到视频生成以 ImagenVideo 生成的视频的第一帧为条件并可视化相应的 X-T 切片。ImagenVideo 难以生成全局一致的重复运动因为它采用级联设计和时间超分辨率模块无法在时间窗口内一致地解决混叠模糊问题。 在这里我们采用了一种不同的方法引入了一个新的 T2V 扩散框架该框架可以一次性生成视频的整个时间长度。我们通过使用时空 U-NetSTUNet架构来实现这一点该架构学习在空间和时间上对信号进行下采样并在紧凑的时空表示中执行大部分计算。这种方法使我们能够使用单个基础模型以 16fps 生成 80 帧或 5 秒这比大多数媒体的平均镜头持续时间更长Cutting Candan, 2015与以前的工作相比可以实现更全局一致的运动。令人惊讶的是之前的 T2V 模型忽视了这种设计选择这些模型遵循惯例在架构中仅包含空间下采样和上采样操作并在整个网络中保持固定的时间分辨率Ho et al., 2022b;a; Singer et al., 2022; Ge et al., 2023; Blattmann et al., 2023b; Wang et al., 2023a; Guo et al., 2023; Zhang et al., 2023a; Girdhar et al., 2023; Po et al., 2023。 为了从 T2I 模型强大的生成先验中受益我们遵循在预训练和固定的 T2I 模型之上构建 Lumiere 的趋势Hong et al., 2022; Singer et al., 2022; Saharia et al., 2022b。在我们的案例中T2I 模型在像素空间中工作由一个基础模型和一个空间超分辨率SSR级联组成。由于 SSR 网络以高空间分辨率运行因此在内存要求方面将其应用于整个视频持续时间是不可行的。常见的 SSR 解决方案使用时间窗口方法将视频分成不重叠的片段并将结果拼接在一起。然而这可能会导致窗口边界处的外观不一致Girdhar et al., 2023。我们建议将 MultidiffusionBar-Tal et al., 2023扩展到时间域这是一种在全景图像生成中实现全局连续性的方法我们在时间窗口上计算空间超分辨率并将结果聚合为整个视频片段的全局连贯解决方案。 我们展示了最先进的视频生成结果并展示了如何轻松地将 Luimere 应用于大量视频内容创建任务包括视频修复图 7、图像到视频生成图 5或生成符合给定风格图像的风格化视频图 6。最后我们证明一次生成完整视频使我们能够轻松调用现成的编辑方法来执行一致的编辑图 9。 2. 相关工作 文本到图像生成。大多数常见的文本到图像T2I生成方法都基于扩散模型Sohl-Dickstein et al., 2015; Ho et al., 2020; Song et al., 2020。其中DALL-E2Ramesh et al., 2022和 ImagenSaharia et al., 2022b使用级联扩散模型实现了逼真的文本到图像生成而稳定扩散Rombach et al., 2022在压缩的低维潜在空间中执行生成。一个有前途的研究方向是设计 T2I 扩散模型该模型可以端到端生成高分辨率图像而无需空间超分辨率级联系统或固定的预训练潜在空间Hoogeboom et al., 2023; Gu et al., 2023; Chen, 2023。在这里我们设计了一个 T2V 模型该模型可以一次生成完整的帧持续时间从而避免了 T2V 模型中常见的时间级联。 文本到视频生成。最近人们做出了大量努力利用自回归 Transformer例如Vil- legas et al., 2023; Wu et al., 2022; Hong et al., 2022; Kon- dratyuk et al., 2023或扩散模型例如Ho et al., 2022a;b; Gupta et al., 2023在大规模数据集上训练大规模 T2V 模型。 T2V 生成的一种主要方法是通过在其架构中插入时间层来 “inflate膨胀” 预先训练的 T2I 模型然后仅对这些模型或整个模型进行微调以适应视频数据Singer et al., 2022; Blattmann et al., 2023b; Girdhar et al., 2023; Ge et al., 2023; Yuan et al., 2024。PYoCoGe et al., 2023精心设计了视频噪声先验并在微调用于视频生成的 T2I 模型方面获得了更好的性能。 VideoLDMBlattmann et al., 2023b和 Animate-DiffGuo et al., 2023对 StableDiffusionRombach et al., 2022进行了扩充并仅训练了新添加的时间层表明它们可以与个性化 T2I 模型的权重相结合。有趣的是现有扩充方案的普遍惯例是在整个网络中保持固定的时间分辨率这限制了它们处理全长剪辑的能力。在这项工作中我们设计了一种新的扩充方案其中包括学习在空间和时间上对视频进行下采样并在网络的压缩时空特征空间中执行大部分计算。我们扩展了 Imagen T2I 模型aharia et al., 2022b但是我们的架构贡献也可以用于潜在扩散并且与扩散噪声调度器Ge et al., 2023或视频数据管理Blattmann et al., 2023a的可能改进正交。 3. Lumiere 我们利用扩散概率模型作为我们的生成方法Sohl-Dickstein et al., 2015; Croitoru et al., 2023a; Dhariwal Nichol, 2021; Ho et al., 2020; Nichol Dhariwal, 2021。这些模型经过训练通过一系列去噪步骤近似数据分布在我们的例子中是视频分布。从高斯 i.i.d. 噪声样本开始扩散模型逐渐对其进行去噪直到达到从近似目标分布中提取的干净样本。扩散模型可以通过合并其他引导信号例如文本嵌入或空间条件例如深度图来学习条件分布Dhariwal Nichol, 2021; Saharia et al., 2022a; Croitoru et al., 2023b; Zhang et al., 2023b。 我们的框架由一个基础模型和一个空间超分辨率SSR模型组成。如图 3b 所示我们的基础模型以粗略的空间分辨率生成完整的片段。我们的基础模型的输出使用时间感知的 SSR 模型进行空间上采样从而产生高分辨率视频。接下来我们将描述我们架构中的关键设计选择并展示我们的框架对各种下游应用的适用性。 图 3**Lumiere 管道**。我们说明了我们的管道以及与以前作品中采用的最常见方法的主要区别。a常见方法由生成远距离关键帧的基本模型和随后填充帧的时间超分辨率TSR模型的级联组成。在非重叠窗口中应用空间超分辨率SSR模型以获得高分辨率结果。b相比之下我们框架中的基本模型一次处理所有帧而无需级联 TSR 模型从而使我们能够学习全局相干运动。为了获得高分辨率视频我们在重叠窗口上应用 SSR 模型并利用 MultiDiffusionBar-Tal et al., 2023将预测组合成一个连贯的结果。有关详细信息请参阅第 3 节。 3.1 时空 U-Net (STUnet) 为了使我们的问题在计算上易于处理我们建议使用时空 U-Net它在空间和时间上对输入信号进行下采样并在这种紧凑的时空表示上执行大部分计算。我们从 Cicek et al. (2016) 中汲取灵感他们概括了 U-Net 架构Ronneberger et al., 2015以包括 3D 池化操作以有效处理体积生物医学数据。 我们的架构如图 4 所示。我们在 T2I 架构中交错时间块并在每个预训练的空间调整大小模块后插入时间下采样和上采样模块 (图 4a)。时间块包括时间卷积图 4b和时间注意图 4c。具体来说在除最粗略层之外的所有层级中我们插入了分解的时空卷积图 4b与全 3D 卷积相比这可以增加网络中的非线性同时降低计算成本并且与 1D 卷积相比可以提高表现力Meng et al., 2022。由于时间注意力的计算要求与帧数成二次方关系因此我们仅在最粗略的分辨率下合并时间注意力其中包含视频的时空压缩表示。在低维特征图上进行操作使我们能够以有限的计算开销堆叠多个时间注意力块。 与Blattmann et al., 2023b; Guo et al., 2023类似我们训练新添加的参数并保持预训练的 T2I 的权重不变。值得注意的是常见的膨胀方法确保在初始化时T2V 模型等同于预训练的 T2I 模型即将视频生成为独立图像样本的集合。然而在我们的例子中由于时间下采样和上采样模块不可能满足这一特性。我们根据经验发现初始化这些模块使它们执行最近邻下采样和上采样操作可以得到一个良好的起点参见附录 B。 图 4**STUNet 架构**。我们将预训练的 T2I U-Net 架构Ho et al., 2022a“膨胀” 为时空 UNetSTUNet在空间和时间上对视频进行下采样和上采样。aSTUNet 激活图的说明颜色表示由不同时间模块产生的特征b基于卷积的块由预训练的 T2I 层和后跟分解的时空卷积组成c最粗 U-Net 级别的基于注意力的块其中预训练的 T2I 层后跟时间注意力。由于视频表示在最粗的级别上被压缩我们堆叠了几个时间注意力层计算开销有限。有关详细信息请参阅第 3.1 节。 3.2 空间超分辨率的多重扩散 由于内存限制膨胀的 SSR 网络只能在视频的短片段上运行。为了避免时间边界伪影我们通过沿时间轴采用多重扩散Bar-Tal et al., 2023来实现时间段之间的平滑过渡。在每个生成步骤中我们将嘈杂的输入视频 J ∈ R H × W × T × 3 J \in \mathbb{R}^{H \times W \times T \times 3} J∈RH×W×T×3 分成一组重叠片段 { J i } i 1 N \left\{J_{i}\right\}_{i1}^{N} {Ji​}i1N​其中 J i ∈ R H × W × T ′ × 3 J_{i} \in \mathbb{R}^{H \times W \times T^{\prime} \times 3} Ji​∈RH×W×T′×3 是第 i i i 个片段其时间持续时间为 T ′ T T^{\prime}T T′T。为了协调每个片段的 SSR 预测 { Φ ( J i ) } i 1 N \left\{\Phi\left(J_{i}\right)\right\}_{i1}^{N} {Φ(Ji​)}i1N​我们将去噪步骤的结果定义为优化问题的解 这个问题的解决方案是通过线性组合重叠窗口上的预测得出的。请参阅附录 C。 4. 应用 由于没有 TSR 级联因此更容易将 Lu-miere 扩展到下游应用。特别是我们的模型为需要现成 T2V 模型的下游应用提供了直观的界面例如Meng et al. (2022); Poole et al. (2023); Gal et al. (2023)。我们通过使用 SDEditMeng et al., 2022执行视频到视频编辑来演示此属性见图 9。接下来我们将讨论许多此类应用包括风格条件生成、图像到视频、修复和去除修复以及电影摄影。我们在图 6-9 中展示了示例帧并请读者参阅我们网页上的补充材料SM以获取完整的视频结果。 图 5**视频生成结果**。文本转视频和图像转视频生成的示例结果。每个示例下方均标有文本提示。对于图像转视频最左边的帧作为条件提供给模型参见第 4.2 节。我们请读者参阅 SM 以获取完整视频结果。 4.1 风格化生成 回想一下我们只训练新添加的时间层并保持预先训练的 T2I 权重不变。先前的研究表明用针对特定风格定制的模型替换 T2I 权重可以生成具有所需风格的视频Guo et al., 2023。我们观察到这种简单的 “即插即用” 方法通常会导致视频失真或静态参见 S M \rm SM SM并假设这是由于时间层的输入分布与微调的空间层存在显着偏差造成的。 受基于 GAN 的插值方法Pinkney Adler, 2020成功的启发我们选择通过在微调的 T2I 权重 W s t y l e W_{\rm style} Wstyle​ 和原始 T2I 权重 W o r i g W_{\rm orig} Worig​ 之间进行线性插值来在风格和运动之间取得平衡。具体来说我们构建插值权重为 W i n t e r p o l a t e α ⋅ W s t y l e ( 1 − α ) ⋅ W o r i g W_{\rm interpolate}\alpha\cdot W_{\rm style}\left(1-\alpha\right)\cdot W_{\rm orig} Winterpolate​α⋅Wstyle​(1−α)⋅Worig​。我们在实验中手动选择插值系数 α ∈ [ 0.5 , 1 ] \alpha\in[0.5,\ 1] α∈[0.5, 1]以生成符合风格并描述合理运动的视频。 图 6 展示了来自Sohn et al., 2023的各种风格的样本结果。虽然 “水彩画” 等更逼真的风格会产生逼真的运动但从矢量艺术风格衍生的其他不太逼真的空间先验会产生相应的独特非逼真的运动。例如“线描” 风格产生的动画类似于铅笔笔触 “绘制” 所描述的场景而 “卡通” 风格产生的内容会逐渐 “pops out弹出” 并构建场景有关完整视频请参阅 SM。 图 6**风格化生成**。给定驾驶风格图像及其对应的一组经过微调的文本到图像权重我们在模型空间层的微调权重和预训练权重之间执行线性插值。我们展示了A矢量艺术风格和B现实风格的结果。结果证明了 Lumiere 能够创造性地匹配每种空间风格之前的不同运动从左到右显示的帧。有关详细信息请参阅第 4.1 节。 4.2 条件生成 与 Blattmann et al. (2023b); Wang et al. (2023b) 类似我们将模型扩展到以其他输入信号 (例如图像或掩码) 为条件的视频生成。我们通过修改模型来实现这一点除了噪声视频 J ∈ R T × H × W × 3 J\in \mathbb{R}^{T \times H \times W \times 3} J∈RT×H×W×3 和驾驶文本提示外还将两个信号作为输入。具体来说我们添加带掩码的条件视频 C ∈ R T × H × W × 3 C\in \mathbb{R}^{T \times H \times W \times 3} C∈RT×H×W×3 及其对应的二元掩码 M ∈ R T × H × W × 1 M\in \mathbb{R}^{T \times H \times W \times 1} M∈RT×H×W×1这样模型的整体输入是连接张量 ⟨ J , C , M ⟩ ∈ R T × H × W × 7 ⟨J,\ C,\ M⟩\in \mathbb{R}^{T \times H \times W \times 7} ⟨J, C, M⟩∈RT×H×W×7。我们将第一个卷积层的通道维度从 3 扩展到 7以适应修改后的输入形状并微调我们的基础 T2V 模型以根据 C , M C,\ M C, M 对 J J J 进行去噪。在此微调过程中我们将 J J J 视为训练视频的噪声版本将 C C C 视为干净视频的掩码版本。这鼓励模型学习将 C C C 中未掩码的信息复制到输出视频中同时仅对 masked掩码内容进行动画处理正如所期望的那样。 Image-to-Video。在这种情况下视频的第一帧作为输入。调节信号 C C C 包含第一帧后面是视频其余部分的空白帧。相应的掩码 M M M 包含第一帧的 1即未掩蔽的内容和视频其余部分的 0即掩蔽的内容。图 1 和图 5 显示了图像调节生成的样本结果有关更多结果请参阅 S M \rm SM SM。我们的模型生成的视频从所需的第一帧开始并在整个视频持续时间内表现出复杂的连贯运动。 Inpainting。在这里调节信号是用户提供的视频 C C C 和描述视频中要完成的区域的掩码 M M M。请注意修复应用程序可用于对象替换/插入图 1以及局部编辑图 7。效果是无缝自然地完成掩蔽区域内容由文本提示引导。我们请读者参阅 S M \rm SM SM 以获取更多修复和覆盖修复的示例。 图 7**Inpainting**。使用 Lumiere 进行视频修复的示例。对于每个输入视频每帧的左上角我们使用我们的模型为视频的掩码区域制作动画。 Cinemagraphs。我们还考虑仅在特定用户提供的区域内对图像内容进行动画处理的应用。调节信号 C C C 是整个视频中重复的输入图像而掩码 M M M 包含整个第一帧的 1即第一帧未被掩码对于其他帧掩码仅包含用户提供区域之外的 1即其他帧在我们希望制作动画的区域内被掩码。我们在图 8 和 S M \rm SM SM 中提供了示例结果。由于第一帧保持未被掩码因此鼓励动画内容保持调节图像的外观。 图 8**Cinemagraphs**。仅给定一张输入图像和一个蒙版左我们的方法就会生成一个视频其中标记区域是动画其余部分保持静态右。 5. 评估和比较 我们在包含 30M 个视频及其文本标题的数据集上训练我们的 T2V 模型。视频长 80 帧帧率为 16 fps5 秒。基础模型以 128×128 进行训练SSR 输出 1024×1024 帧。我们在描述不同对象和场景的 109 个文本提示集合上评估我们的模型。提示列表包含先前作品使用的 91 个提示Singer et al., 2022; Ho et al., 2022a; Blattmann et al., 2023b其余由我们创建参见附录 D。此外我们在 UCF101 数据集Soomro et al., 2012上采用了零样本评估协议如第 5.2 节所述。 我们在图 1 和图 5 中说明了文本到视频的生成。我们的方法可以生成高质量的视频既可以描绘复杂的物体运动例如图 5 中的行走宇航员也可以描绘连贯的相机运动例如图 1 中的汽车示例。我们请读者参阅 S M \rm SM SM 以获取完整视频结果。 基线。我们将我们的方法与著名的 T2V 扩散模型进行比较iImagenVideoHo et al., 2022a它在像素空间中运行由 7 个模型一个基础模型、3 个 TSR 模型和 3 个 SSR 模型的级联组成iiAnimateDiffGuo et al., 2023iiiStableVideoDiffusionSVDBlattmann et al., 2023a以及ivZeroScopeWang et al., 2023a它们膨胀稳定扩散Rombach et al., 2022并在视频数据上进行训练请注意AnimateDiff 和 ZeroScope 分别仅输出 16 帧和 36 帧。SVD 仅发布了其图像到视频模型该模型输出 25 帧并且不以文本为条件。此外我们还与具有可用 API 的vPikaPika labs, 2023和viGen-2RunwayML, 2023商业 T2V 模型进行了比较。此外我们还与第 5.2 节中闭源的其他 T2V 模型进行了定量比较。 图 9**通过 SDEdit 实现视频到视频**。我们的基础模型生成全帧速率视频无需 TSR 级联因此为下游应用程序提供了直观的界面。我们通过使用我们的模型应用 SDEditMeng et al., 2022来演示此属性从而实现一致的视频风格化。我们在第一行显示给定输入视频的几帧并在下方显示相应的编辑帧。 5.1 定性评估 我们在图 11 中对我们的模型和基线进行了定性比较。我们观察到 Gen-2Run- wayML, 2023和 PikaPika labs, 2023表现出较高的每帧视觉质量然而它们的输出以非常有限的运动量为特征通常导致近乎静态的视频。ImagenVideoHo et al., 2022a产生了合理的运动量但整体视觉质量较低。AnimateDiffGuo et al., 2023和 ZeroScopeWang et al., 2023a表现出明显的运动但也容易出现视觉伪影。此外它们生成的视频持续时间较短具体分别为 2 秒和 3.6 秒。相比之下我们的方法生成的 5 秒视频具有更高的运动幅度同时保持了时间一致性和整体质量。 5.2 定量评估 UCF101 上的零样本评估。遵循 Blattmann et al. (2023a) 和 Ge et al. (2023) 的评估协议我们定量评估了我们在 UCF101 上进行零样本文本到视频生成的方法Soomro et al., 2012。表 1 报告了我们的方法和先前工作的 Fre ́chet 视频距离FVDUn- terthiner et al., 2018和初始分数ISSalimans et al., 2016。我们获得了具有竞争力的 FVD 和 IS 分数。但是如先前研究中所讨论的例如 Girdhar et al. (2023); Ho et al. (2022a); Chong Forsyth (2020)这些指标并不能忠实地反映人类的感知并且可能会受到低级细节Parmar et al., 2022以及参考 UCF101 数据和 T2V 训练数据Girdhar et al., 2023之间的分布变化的显著影响。此外该协议仅使用生成的视频中的 16 帧因此无法捕捉长期运动。 表 1UCF101 上的零样本文本到视频生成比较Soomro et al., 2012。我们的方法实现了具有竞争力的 FVDUnterthiner et al., 2018和 ISSalimans et al., 2016分数。请参阅第 5.2 节。 用户研究。我们采用了两种选择强制选择2AFC协议就像以前的研究中使用的一样Kolkin et al., 2019; Zhang et al., 2018; Blattmann et al., 2023a; Rombach et al., 2022。在这个协议中向参与者展示一对随机选择的视频一个由我们的模型生成另一个由其中一种基线方法生成。然后要求参与者选择他们认为在视觉质量和运动方面更好的视频。此外还要求他们选择与目标文本提示更准确匹配的视频。我们利用 Amazon Mechanical TurkAMT平台为每个基线和问题收集了 ∼400 个用户判断。如图 10 所示与所有基线相比我们的方法更受用户的青睐并且与文本提示的一致性更好。请注意ZeroScope 和 AnimateDiff 分别仅生成 3.6 秒和 2 秒的视频因此我们在与它们进行比较时剪辑我们的视频以匹配它们的持续时间。 图 10**用户研究**。我们将我们的方法与每个基线进行比较。对于每个基线我们报告了赞成我们的用户投票百分比蓝色和赞成基线的用户投票百分比橙色。我们的方法在文本转视频和图像转视频生成中都受到用户的青睐。参见第 5.2 节。 我们进一步进行了一项用户研究将我们的图像到视频模型见第 4.2 节与 PikaPika labs, 2023、StableVideoDiffusionSVDBlattmann et al., 2023a和 Gen2RunwayML, 2023进行比较。请注意SVD 图像到视频模型不以文本为条件因此我们将调查重点放在视频质量上。如图 10 所示与基线相比我们的方法更受用户青睐。有关完整评估协议的详细描述请参阅附录 D。 6. 结论 我们提出了一种新的文本到视频生成框架利用预先训练的文本到图像扩散模型。我们发现在学习全局相干运动方面流行的方法是首先生成远距离关键帧然后使用时间超分辨率模型的级联对其进行插值这种方法存在固有的局限性。为了应对这一挑战我们引入了一种时空 U-Net 架构设计通过结合空间和时间的下采样和上采样模块直接生成全帧速率视频剪辑。我们展示了最先进的生成结果并展示了我们的方法适用于广泛的应用包括图像到视频、视频修复和风格化生成。 至于局限性我们的方法并非旨在生成由多个镜头组成或涉及场景间转换的视频。生成此类内容仍然是未来研究的挑战。此外我们在像素空间中运行的 T2I 模型之上建立了模型因此涉及空间超分辨率模块来生成高分辨率图像。尽管如此我们的设计原则适用于潜在视频扩散模型Rombach et al., 2022并且可以引发对文本到视频模型设计的进一步研究。 7. 社会影响 我们这项工作的主要目标是让新手用户能够以创造性和灵活的方式生成视觉内容。然而使用我们的技术存在滥用创建虚假或有害内容的风险我们认为开发和应用用于检测偏见和恶意用例的工具至关重要以确保安全和公平使用。 致谢 我们要感谢 Ronny Votel、Orly Liba、Hamid Mohammadi、April Lehman、Bryan Seybold、David Ross、Dan Goldman、Hartwig Adam、Xuhui Jia、Xiuye​​ Gu、Mehek Sharma、Rachel Hornung、Oran Lang、Jess Gallegos、William T. Freeman 和 David Salesin 的合作、有益的讨论、反馈和支持。我们感谢实验中使用的图像和视频的所有者分享他们的宝贵资产可在我们网页上找到归属信息。 参考文献 Bar-Tal, O., Yariv, L., Lipman, Y., and Dekel, T. Multi- Diffusion: Fusing diffusion paths for controlled image generation. In ICML, 2023.Blattmann, A., Dockhorn, T., Kulal, S., Mendelevitch, D., Kilian, M., Lorenz, D., Levi, Y., English, Z., Voleti, V., Letts, A., et al. Stable video diffusion: Scaling latent video diffusion models to large datasets. arXiv preprint arXiv:2311.15127, 2023a.Blattmann, A., Rombach, R., Ling, H., Dockhorn, T., Kim, S. W., Fidler, S., and Kreis, K. Align your latents: High- resolution video synthesis with latent diffusion models. In CVPR, 2023b.Carreira, J. and Zisserman, A. Quo vadis, action recogni- tion? A new model and the kinetics dataset. In CVPR, pp. 6299–6308, 2017.Chen, T. On the importance of noise scheduling for diffusion models. arXiv preprint arXiv:2301.10972, 2023.Chong, M. J. and Forsyth, D. Effectively unbiased FID and Inception Score and where to find them. In CVPR, pp. 6070–6079, 2020.Cicek,O ̈.,Abdulkadir,A.,Lienkamp,S.S.,Brox,T.,and Ronneberger, O. 3d u-net: learning dense volumetric segmentation from sparse annotation. In MICCAI, pp. 424–432. Springer, 2016.Croitoru, F.-A., Hondru, V., Ionescu, R. T., and Shah, M. Diffusion models in vision: A survey. IEEE T. Pattern Anal. Mach. Intell., 2023a.Croitoru, F.-A., Hondru, V., Ionescu, R. T., and Shah, M. Diffusion models in vision: A survey. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023b.Cutting, J. E. and Candan, A. Shot durations, shot classes, and the increased pace of popular movies, 2015.Dhariwal, P. and Nichol, A. Diffusion models beat gans on image synthesis. NeurIPS, 2021.Gal, R., Vinker, Y., Alaluf, Y., Bermano, A. H., Cohen- Or, D., Shamir, A., and Chechik, G. Breathing life into sketches using text-to-video priors. arXiv preprint arXiv:2311.13608, 2023.Ge, S., Nah, S., Liu, G., Poon, T., Tao, A., Catanzaro, B., Jacobs, D., Huang, J.-B., Liu, M.-Y., and Balaji, Y. Preserve your own correlation: A noise prior for video diffusion models. In ICCV, pp. 22930–22941, 2023.Girdhar, R., Singh, M., Brown, A., Duval, Q., Azadi, S., Rambhatla, S. S., Shah, A., Yin, X., Parikh, D., and Misra, I. Emu Video: Factorizing text-to-video gen- eration by explicit image conditioning. arXiv preprint arXiv:2311.10709, 2023.Gu, J., Zhai, S., Zhang, Y., Susskind, J., and Jaitly, N. Matryoshka diffusion models. arXiv:2310.15111, 2023. arXiv preprintGuo, Y., Yang, C., Rao, A., Wang, Y., Qiao, Y., Lin, D., and Dai, B. AnimateDiff: Animate your personalized text-to-image diffusion models without specific tuning. arXiv preprint arXiv:2307.04725, 2023.Gupta, A., Yu, L., Sohn, K., Gu, X., Hahn, M., Fei-Fei, L., Essa, I., Jiang, L., and Lezama, J. Photorealistic video generation with diffusion models. arXiv preprint arXiv:2312.06662, 2023.He, K., Zhang, X., Ren, S., and Sun, J. Delving deep into rectifiers: Surpassing human-level performance on imagenet classification. In Proceedings of the IEEE inter- national conference on computer vision, pp. 1026–1034, 2015.Ho, J., Jain, A., and Abbeel, P. Denoising diffusion proba- bilistic models. NeurIPS, 33:6840–6851, 2020.Ho, J., Chan, W., Saharia, C., Whang, J., Gao, R., Gritsenko, A., Kingma, D. P., Poole, B., Norouzi, M., Fleet, D. J., et al. Imagen video: High definition video generation with diffusion models. arXiv preprint arXiv:2210.02303, 2022a.Ho, J., Salimans, T., Gritsenko, A., Chan, W., Norouzi, M., and Fleet, D. J. Video diffusion models, 2022b.Hong, W., Ding, M., Zheng, W., Liu, X., and Tang, J. CogVideo: Large-scale pretraining for text-to- video generation via transformers. arXiv preprint arXiv:2205.15868, 2022.Hoogeboom, E., Heek, J., and Salimans, T. Simple diffusion: End-to-end diffusion for high resolution images. In ICML, 2023.Kolkin, N., Salavon, J., and Shakhnarovich, G. Style transfer by relaxed optimal transport and self-similarity. In CVPR, pp. 10051–10060, 2019.Kondratyuk, D., Yu, L., Gu, X., Lezama, J., Huang, J., Hornung, R., Adam, H., Akbari, H., Alon, Y., Birodkar, V., et al. VideoPoet: A large language model for zero- shot video generation. arXiv preprint arXiv:2312.14125, 2023.Meng, C., He, Y., Song, Y., Song, J., Wu, J., Zhu, J.-Y., and Ermon, S. SDEdit: Guided image synthesis and editing with stochastic differential equations. In ICLR, 2022.Nichol, A. Q. and Dhariwal, P. Improved denoising diffusion probabilistic models. In ICML, pp. 8162–8171, 2021.Parmar, G., Zhang, R., and Zhu, J.-Y. On aliased resizing and surprising subtleties in gan evaluation. In CVPR, 2022.Pika labs. https://www.pika.art/, 2023.Pinkney, J. N. and Adler, D. Resolution dependent GAN interpolation for controllable image synthesis between domains. In Machine Learning for Creativity and Design NeurIPS 2020 Workshop, 2020.Po, R., Yifan, W., Golyanik, V., Aberman, K., Barron, J. T., Bermano, A. H., Chan, E. R., Dekel, T., Holynski, A., Kanazawa, A., et al. State of the art on diffusion models for visual computing. arXiv preprint arXiv:2310.07204, 2023.Poole, B., Jain, A., Barron, J. T., and Mildenhall, B. Dream- Fusion: Text-to-3D using 2D diffusion. In ICLR, 2023.Ramesh, A., Dhariwal, P., Nichol, A., Chu, C., and Chen, M. Hierarchical text-conditional image generation with CLIP latents. arXiv preprint arXiv:2204.06125, 2022.Rombach, R., Blattmann, A., Lorenz, D., Esser, P., and Ommer, B. High-resolution image synthesis with latent diffusion models. In CVPR, pp. 10684–10695, 2022.Ronneberger, O., Fischer, P., and Brox, T. U-Net: Convolu- tional networks for biomedical image segmentation. In MICCAI, pp. 234–241. Springer, 2015.RunwayML. Gen-2. https://research.runwayml.com/gen2, 2023.Saharia, C., Chan, W., Chang, H., Lee, C., Ho, J., Salimans, T., Fleet, D., and Norouzi, M. Palette: Image-to-image diffusion models. In ACM SIGGRAPH 2022 Conference Proceedings, pp. 1–10, 2022a.Saharia, C., Chan, W., Saxena, S., Li, L., Whang, J., Denton, E. L., Ghasemipour, K., Gontijo Lopes, R., Karagol Ayan, B., Salimans, T., et al. Photorealistic text-to-image diffu- sion models with deep language understanding. NeurIPS, 35:36479–36494, 2022b.Saito, M., Saito, S., Koyama, M., and Kobayashi, S. Train sparsely, generate densely: Memory-efficient unsuper- vised training of high-resolution temporal GAN. Int. J. Comput. Vision, 128(10-11):2586–2606, 2020.Salimans, T., Goodfellow, I., Zaremba, W., Cheung, V., Radford, A., and Chen, X. Improved techniques for training GANs. NIPS, 29, 2016.Singer, U., Polyak, A., Hayes, T., Yin, X., An, J., Zhang, S., Hu, Q., Yang, H., Ashual, O., Gafni, O., et al. Make-a- Video: Text-to-video generation without text-video data. arXiv preprint arXiv:2209.14792, 2022.Sohl-Dickstein, J., Weiss, E., Maheswaranathan, N., and Ganguli, S. Deep unsupervised learning using nonequilib- rium thermodynamics. In ICML, pp. 2256–2265, 2015.Sohn, K., Ruiz, N., Lee, K., Chin, D. C., Blok, I., Chang, H., Barber, J., Jiang, L., Entis, G., Li, Y., et al. StyleDrop: Text-to-image generation in any style. arXiv preprint arXiv:2306.00983, 2023.Song, Y., Sohl-Dickstein, J., Kingma, D. P., Kumar, A., Er- mon, S., and Poole, B. Score-based generative modeling through stochastic differential equations. arXiv preprint arXiv:2011.13456, 2020.Soomro, K., Zamir, A. R., and Shah, M. UCF101: A dataset of 101 human actions classes from videos in the wild. arXiv preprint arXiv:1212.0402, 2012.Tran, D., Wang, H., Torresani, L., Ray, J., LeCun, Y., and Paluri, M. A closer look at spatiotemporal convolutions for action recognition. In CVPR, pp. 6450–6459, 2018.Unterthiner, T., Van Steenkiste, S., Kurach, K., Marinier, R., Michalski, M., and Gelly, S. Towards accurate generative models of video: A new metric challenges. arXiv preprint arXiv:1812.01717, 2018.Villegas, R., Babaeizadeh, M., Kindermans, P.-J., Moraldo, H., Zhang, H., Saffar, M. T., Castro, S., Kunze, J., and Erhan, D. Phenaki: Variable length video generation from open domain textual description. In ICLR, 2023.Wang, J., Yuan, H., Chen, D., Zhang, Y., Wang, X., and Zhang, S. Modelscope text-to-video technical report. arXiv preprint arXiv:2308.06571, 2023a.Wang, X., Yuan, H., Zhang, S., Chen, D., Wang, J., Zhang, Y., Shen, Y., Zhao, D., and Zhou, J. Videocomposer: Compositional video synthesis with motion controllabil- ity. arXiv preprint arXiv:2306.02018, 2023b.Wu, C., Liang, J., Ji, L., Yang, F., Fang, Y., Jiang, D., and Duan, N. Nu ̈wa: Visual synthesis pre-training for neural visual world creation. In ECCV, pp. 720–736. Springer, 2022.Yuan, X., Baek, J., Xu, K., Tov, O., and Fei, H. Inflation with diffusion: Efficient temporal adaptation for text-to- video super-resolution, 2024.Zhang, D. J., Wu, J. Z., Liu, J.-W., Zhao, R., Ran, L., Gu, Y., Gao, D., and Shou, M. Z. Show-1: Marrying pixel and latent diffusion models for text-to-video generation. arXiv preprint arXiv:2309.15818, 2023a.Zhang, L., Rao, A., and Agrawala, M. Adding conditional control to text-to-image diffusion models. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pp. 3836–3847, 2023b.Zhang, R., Isola, P., Efros, A. A., Shechtman, E., and Wang, O. The unreasonable effectiveness of deep features as a perceptual metric. In CVPR, pp. 586–595, 2018.Zhou, D., Wang, W., Yan, H., Lv, W., Zhu, Y., and Feng, J. MagicVideo: Efficient video generation with latent diffu- sion models. arXiv preprint arXiv:2211.11018, 2022.
http://www.dnsts.com.cn/news/143136.html

相关文章:

  • 馆陶网站推广建网络商城网站吗
  • 佛山网站建设公司哪家比较好怎么快速推广
  • 好利蛋糕店官方网站潍坊人才招聘网
  • 云海建设工程有限公司网站网站热度查询
  • 怎样建造网站外贸公司推广方案
  • 网站开发业务好做吗自适应网站的代表
  • 网站在建设中模板下载wordpress修改他人的模板
  • 运城网站建设公司wordpress移动端不显示图片
  • 连云港网站关键词优化服务哪一个网站可以做专利检索报告
  • 淄博企业高端网站建设新华网
  • 河南省和城乡建设厅网站首页软件项目管理的过程
  • 互联网建站是什么企业网站备案 过户
  • 合肥网站建设推广云南省建设工程造价信息网官网
  • 昆山网站制作 微博营销型网站整体优化
  • 网站建设及推广费记什么科目简介网络营销的概念
  • 阿里云ssl wordpressseo薪酬
  • 广州建站公司兴田德润活动运营一个app需要多少钱?
  • 长沙网站开发在线咨询大连市的网络平台有几家
  • 国外购物网站有哪些wordpress用vps搭建
  • 搜索引擎作弊的网站有哪些大城县建设局网站
  • 网站分析及推广方案青岛网站seo技巧
  • 建德营销型网站建设做网站申请哪类商标
  • 酒店网站建设方案策划方案山西省确诊病例最新情况
  • 宁波专业网站公司制作一个简单网页html
  • 广州网站制作报价服装设计专业有前途吗
  • 蚌埠市建设管理局官方网站智慧旅游网站建设方案ppt模板
  • 上海网站建设哪个平台好百度公司全称叫什么
  • 企业培训网站模板搜索网站排名
  • 一键网站提交网站开发与维护视频教程
  • 上市公司网站建设报价法律咨询