外贸联系网站,桥头东莞网站建设,网页设计实训报告5000字,石家庄城乡建设网站文章链接#xff1a;https://arxiv.org/pdf/2412.19761 项目链接#xff1a;https://genprop.github.io 亮点直击 定义了一个新的生成视频传播问题#xff0c;目标是利用 I2V 模型的生成能力#xff0c;将视频第一帧的各种变化传播到整个视频中。 精心设计了模型 GenProphttps://arxiv.org/pdf/2412.19761 项目链接https://genprop.github.io 亮点直击 定义了一个新的生成视频传播问题目标是利用 I2V 模型的生成能力将视频第一帧的各种变化传播到整个视频中。 精心设计了模型 GenProp包含选择性内容编码器Selective Content Encoder, SCE、专用损失函数以及mask预测头并提出了一个用于训练模型的合成数据生成pipeline。 本文的模型支持多种下游应用如移除、插入、替换、编辑和跟踪。实验还表明即使没有特定任务的数据进行训练模型也能支持视频扩展outpainting。 实验结果显示本文的模型在视频编辑和对象移除任务中优于 SOTA 方法同时扩展了包括跟踪在内的现有任务范围。 总结速览
解决的问题 当前大规模视频生成模型在处理各种视频编辑任务时往往聚焦于单一任务如视频修复、外观编辑、对象插入等而传统的视频传播方法如光流或深度传播易受错误积累影响缺乏鲁棒性和泛化能力。现有方法还需要密集标注或专门针对任务进行重新训练流程复杂且效率较低。
提出的方案
框架设计提出了一个统一的视频生成传播框架——GenProp。 使用选择性内容编码器Selective Content Encoder, SCE对原视频的未变部分进行编码。 使用图像到视频生成模型Image-to-Video, I2V将第一帧的编辑传播至整段视频。 损失函数设计引入区域感知损失region-aware loss确保SCE只编码未编辑区域的内容同时优化I2V模型在修改区域的生成能力。 数据生成方案利用实例级视频分割数据集生成合成数据覆盖多种视频任务。
应用的技术 生成模型通过 I2V 生成模型进行内容传播无需依赖光流或运动预测。 辅助训练模块加入辅助解码器预测修改区域以提高编辑区域的生成质量。 选择性编码通过区域感知机制减少对已修改区域的编码干扰增强未编辑内容的保真度。
达到的效果 编辑支持对对象形状进行显著修改。 插入插入的对象能够独立运动。 移除可有效移除阴影、反射等对象效果。 跟踪能够精确跟踪对象及其相关效果。 统一性无需密集标注或任务特定的重新训练简化了编辑流程。
方法
生成视频传播面临以下关键挑战 真实性 – 第一帧中的变化应自然传播到后续帧中。 一致性 – 所有其他区域应与原始视频保持一致。 通用性 – 模型应具有足够的通用性适用于多种视频任务。
在 GenProp 中通过 I2V 生成模型解决 真实性1引入选择性内容编码器和掩膜预测解码器并使用区域感知损失进行训练以解决 一致性2通过数据生成方案和通用 I2V 模型满足 通用性3。 问题定义
给定一个输入视频 包含 帧设 为修改后的第一帧目标是传播该修改生成修改后的视频 其中每帧 保持对关键帧 的修改同时在整个序列中保持外观和运动的一致性。
采用潜在扩散模型latent diffusion model在潜在空间中编码像素信息。为了简化表示继续用 表示该潜在表示形式。形式化地在推理过程中GenProp 生成每帧 的公式为 其中 是由选择性内容编码器 引导的 I2V 生成模型。
在训练过程中使用从现有视频实例分割数据集中构造的合成数据来创建配对样本。定义一个数据生成操作符 用于从原始视频序列 构造训练数据对 。令 表示应用于原始视频序列的合成数据生成操作符其中 然后 是合成视频序列。 GenProp 被训练以满足以下目标在所有帧 中 其中 是一个区域感知损失用于解耦修改区域和未修改区域保证未修改区域的稳定性同时允许在编辑区域进行准确的传播。为了确保最终输出符合真实视频数据的分布合成数据仅输入到内容编码器。I2V 生成模型则使用原始视频防止模型无意中学习到合成伪影。
模型设计
为了保持原始视频的未修改部分并仅传播修改区域我们将两个额外的组件集成到基本的 I2V 模型中选择性内容编码器Selective Content EncoderSCE和mask预测解码器Mask Prediction DecoderMPD如下图 4 所示。 选择性内容编码器 (SCE) SCE 架构是主生成模型初始 个块的复制版本类似于 ControlNet 。在每个编码器块后提取的特征将添加到 I2V 模型中的相应特征中从而实现内容信息的平滑和层次化流动。注入层是一个具有零初始化的多层感知机MLP该层也会进行训练。此外为了实现双向信息交换I2V 模型的特征在第一个块之前与 SCE 的输入进行融合。这使得 SCE 能够识别修改区域从而能够选择性地编码未修改区域的信息。
Mask预测解码器 (MPD) Mask预测解码器MPD用于估计需要编辑的空间区域帮助编码器将修改内容与未修改内容区分开。SCE 使用 I2V 模型的前 个块而 MPD 通过使用最终块及一个多层感知机MLP作为最终层来镜像这一结构。它从倒数第二个块获取潜在表示该表示包含丰富的空间和时间信息并通过 MLP 层处理。这恢复了时间维度并与视频帧的数量匹配。最终输出通过均方误差MSE损失 训练以匹配视频的实例掩码。这引导模型关注编辑区域并显著提高注意力图的准确性。
区域感知损失 (Region-Aware Loss)
在训练过程中使用实例分割数据来确保编辑和未编辑区域都能得到适当的监督。本文设计了区域感知损失RA Loss如下图 5 所示旨在平衡两个区域的损失即使编辑区域相对较小。 对于输入视频 和实例级别的mask 其中 表示帧 中的编辑区域在空间维度上应用高斯下采样并在时间维度上重复以获得与视频潜在表示形状对齐的掩码 。损失分别计算mask区域和非mask区域得到 其中 表示扩散均方误差损失MSE loss用于衡量生成帧 与真实帧 之间的像素级误差。
为了进一步减少 SCE 在mask区域的影响添加了一个梯度损失 它最小化编码器输入中mask区域的影响。不直接计算二阶梯度而是通过有限差分法进行近似计算。 其中 表示编码器的特征 是一个小的扰动。梯度损失定义为 RA损失是三个项的加权和以确保对mask区域和非mask区域都有足够的监督。 合成数据生成
创建大规模配对视频数据集可能既昂贵又具有挑战性尤其是对于视频传播任务因为很难涵盖所有视频任务。为了解决这个问题本文提出使用从视频实例分割数据集中派生的合成数据。在训练中使用了Youtube-VOS、SAM-V2 和一个内部数据集。然而这一数据生成pipeline可以应用于任何可用的视频实例分割数据集。
采用了多种增强技术来处理分割数据针对不同的传播子任务进行了定制 复制并粘贴从一个视频中随机分割对象并粘贴到另一个视频中模拟物体插入 Mask填充对mask区域进行修复在选定区域内创建逼真的编辑 颜色填充用特定的颜色填充mask区域表示基本的物体追踪场景。
对于颜色填充将被送到将被送到如公式3所示。每种合成数据类型与一个特定任务对齐使得本文的模型能够跨不同应用进行泛化。对应这些增强方法的任务嵌入被注入到模型中引导模型根据增强类型进行适应。请注意尽管数据创建方法和任务多样但SCE的核心功能保持一致编码未编辑的信息而I2V模型保持生成能力以传播已编辑区域。
实验
实现细节
由于GenProp是一个通用框架在基于Sora的DiT架构和基于Stable Video Diffusion (SVD)的U-Net架构上进行了实验作为基本的视频生成模型。对于前者模型在32、64和128帧的视频上进行I2V生成训练帧率为12和24FPS基准分辨率为360p。SCE24个块和MPD进行训练而I2V模型被冻结。结果可以使用超分辨率模型提升至720p。学习率设置为5e-5采用余弦衰减调度器和线性预热。为确保训练稳定性采用指数滑动平均。梯度范数阈值设为0.001以防止训练不稳定。分类器自由引导CFG值设为20数据增强比率分别设置为0.5/0.375/0.125分别对应复制并粘贴/掩码填充/颜色填充。在RA损失中为2.0为1.0为1.0。所有实验在32/64个NVIDIA A100 GPU上进行针对不同的架构进行实验。DiT骨干网络具有更好的视频生成质量。主要结果来自这个DiT变体而消融研究则基于SVD架构进行。
比较
由于生成视频传播是一个新问题在GenProp的三个子任务中与现有的最先进方法进行了比较。请注意本文的模型能够在同一个模型中处理这些任务并进一步涵盖了如外延outpainting以及这些子任务的组合等附加任务如下图1底部所示。 基于扩散的视频编辑 在下图6a和b中将GenProp与其他基于扩散的视频编辑方法进行了比较包括文本引导和图像引导的方法。InsV2V依赖于指令文本来控制生成。然而由于训练数据有限它在形状变化较大时表现不佳并且不支持对象插入。Pika也使用文本提示在框选区域内进行编辑但当物体形状发生显著变化时它表现较差且无法处理背景编辑或对象插入。AnyV2V是一个无需训练的方法使用第一帧来引导编辑。虽然它能够处理外观变化但在发生大规模形状或背景修改时会失败通常会导致退化或鬼影效果。像InsV2V和Pika一样它也无法插入物体。使用ReVideo通过先移除一个物体再重新插入来处理大规模的形状变化但这种两阶段过程有缺点。基于框的区域可能导致模糊的边界并且物体运动会受到原始点跟踪的影响导致错误累积。此外框选区域限制了它有效编辑复杂背景的能力。 视频物体移除 对于物体移除将GenProp与传统的修补pipeline进行了比较其中级联了两个最先进的模型来实现类似传播的修补因为传统方法需要对所有帧进行密集的遮罩注释SAM-V2用于遮罩跟踪然后Propainter用于修补估计遮罩中的区域。如上图6c和d所示GenProp具有几个优点1不需要密集的遮罩注释作为输入2去除物体的反射和阴影等效果3去除大物体并在大面积内进行自然填充。
视频物体跟踪 在上图6e中将GenProp与SAM-V2在跟踪性能上进行了比较。由于SAM-V2是在大规模SA-V数据集上训练的因此SAM-V2通常会生成比GenProp更精确的跟踪遮罩。此外GenProp比像SAM-V2这样的实时跟踪方法要慢。然而它有显著的优势。由于其视频生成的预训练GenProp具有强大的物理规则理解能力。如图6所示与SAM-V2不同后者由于训练数据有限且偏倚难以处理物体的反射和阴影等效果GenProp能够稳定地跟踪这些效果。这突显了通过生成模型处理经典视觉任务的潜力。
定量结果 对多个测试集进行了定量评估。在视频编辑如表1所示中在两种类型的测试集上进行了评估1经典测试集使用TGVE的DAVIS部分及其“对象变化描述”作为文本提示重点关注对象替换和外观编辑2挑战性测试集包括从Pexels和Adobe Stock收集的30个手动选择的视频涵盖了大规模物体替换、物体插入和背景替换。对于2第一帧使用商业图像编辑工具进行了编辑。对于Pika使用在线框选工具每个结果运行三次。对于ReVideo选择一个框选区域然后使用其代码提取原始物体的运动点以跟踪外观变化。对于具有显著形状变化的编辑首先移除原始物体再插入新物体并分配未来轨迹。
为了评估未编辑区域的一致性在编辑遮罩外计算PSNR记作PSNRm。对于形状变化较大的情况我们在原始和编辑区域上应用粗略的遮罩仅计算这些遮罩外区域的PSNR。对于文本对齐我们计算编辑帧与文本提示的CLIP嵌入之间的余弦相似度CLIP-T。对于结果质量计算跨帧的CLIP特征距离CLIP-I。
如下表1所示GenProp在大多数指标上优于其他方法特别是在挑战性测试集上。Pika在经典测试集上表现出较好的一致性因为当物体形状相对不变时其边界框表现得相当好。ReVideo在多个物体上效果较差。对于物体移除收集了15个复杂场景的视频包括物体效果和遮挡因为现有的测试集没有覆盖这些情况。对于SAM我们点击物体和副作用以确保完整的覆盖。 如表2所示GenProp实现了最高的一致性而ReVideo可能会产生边界框伪影ProPainter在物体效果方面表现较差。 由于质量指标往往不能准确捕捉生成结果的真实感使用Amazon MTurk进行了用户研究共有121名参与者。每个参与者查看由GenProp和随机基线生成的几个视频以及原始视频和文本提示。他们被问到两个问题 哪个视频与说明更匹配 哪个视频在视觉上更好
然后参与者为每个问题选择一个视频。在上面表1和表2中展示了用户在对齐/质量上的偏好GenProp在所有基线上均大幅领先特别是在挑战性测试集上。
消融研究
Mask预测解码器MPD 在下表3中评估了MPD在挑战性测试集上的效果结果显示它可以改善文本对齐和一致性。如图7的第1和第2行所示未使用MPD时输出mask往往严重退化导致移除质量更差。如果没有MPD的显式监督模型可能会混淆应该传播的部分和应该保留的部分导致在后续帧中部分移除的物体重新出现。MPD有助于解耦使得移除结果和预测掩码更加准确即使在严重遮挡的情况下也能实现完全物体移除。
区域感知损失 (RA Loss) 在表3中进一步测试了所提议的RA Loss在挑战性测试集上的有效性。GenProp中的一个核心挑战是SCE可能错误地选择原始视频的所有区域包括编辑区域这会因为重建损失而削弱I2V生成能力。 如下图7的第3至第5行所示在没有RA Loss的情况下原始物体往往会逐渐重新出现从而阻碍了第一帧编辑绿色摩托车的传播。使用RA Loss后编辑区域能够以稳定一致的方式传播。 颜色填充增强 (Color Fill Augmentation) 颜色填充增强是解决传播失败的另一个关键因素。尽管复制粘贴和遮罩填充增强使得模型能够隐式学习物体修改、替换和删除但颜色填充增强明确地训练模型进行跟踪引导模型在整个序列中保持第一帧所做的修改提示为“跟踪彩色区域”。如上图7的第6至第8行所示由于形状差异显著将女孩变成一只小猫是具有挑战性的。然而使用颜色填充增强后GenProp成功地将这一大幅修改在整个序列中传播。
结论
本文设计了一种新型的生成视频传播框架——GenProp利用I2V模型固有的视频生成能力实现了包括物体移除、插入和跟踪等多种下游应用。通过展示其能够扩展可实现的编辑范围例如移除或跟踪物体及其相关效果并生成高度逼真的视频且不依赖于传统的中间表示如光流或深度图我们展示了其潜力。通过集成选择性内容编码器并利用I2V生成模型GenProp能够始终保持未改变的内容同时动态传播变化。合成数据和区域感知损失进一步提升了其在跨帧解耦和细化编辑方面的能力。实验结果表明GenProp在范围和精度上均优于现有方法确立了其作为一种强大、灵活的解决方案的地位。未来我们计划扩展该模型以支持多个关键帧的编辑并探索可以支持的其他视频任务。
参考文献
[1] Generative Video Propagation