当前位置: 首页 > news >正文

建设银行个人网站个人客户网站建设的可行性分析报告

建设银行个人网站个人客户,网站建设的可行性分析报告,域名信息查询,跟网站开发有关的内容1.简介 Seedance 1.0 是由字节跳动推出的高性能视频生成基础模型#xff0c;旨在突破当前视频生成模型在指令遵循、运动合理性与视觉质量平衡方面的瓶颈。该模型通过多源数据整合与精准视频字幕生成#xff0c;实现了跨多样化场景的全面学习#xff1b;采用高效的架构设计旨在突破当前视频生成模型在指令遵循、运动合理性与视觉质量平衡方面的瓶颈。该模型通过多源数据整合与精准视频字幕生成实现了跨多样化场景的全面学习采用高效的架构设计支持多镜头生成以及文本到视频和图像到视频任务的联合学习通过细粒度监督微调和多维度奖励机制的强化学习显著提升了模型性能并借助多阶段蒸馏策略和系统级优化实现了 10 倍的推理加速。 与当代模型相比Seedance 1.0展现出四个显著特点 全面生成能力。Seedance 1.0实现了卓越的时空连贯性和结构稳定性展现出流畅的运动和物理合理性。该模型能够生成具有细腻纹理和丰富构图的逼真视觉效果在专有评估套件和权威第三方基准测试中均达到了最先进的性能水平。精准指令遵循。通过对多样化场景、实体和动作语义的全面学习Seedance 1.0能够精准解读复杂的用户指令。它能够稳健地处理多主体交互、自适应镜头控制以及风格变化同时保持叙事的连贯性。多镜头叙事能力。Seedance 1.0原生支持连贯的多镜头叙事能够在时空转换中保持稳定的视角过渡和一致的主题呈现。超快速生成体验。借助多种模型加速技术Seedance 1.0显著降低了推理成本它仅需41.4秒即可生成一段时长5秒、分辨率为1080p的视频基于NVIDIA-L20速度远超其他商业同类产品。 Seedance 1.0将于2025年6月集成至多个平台包括Doubao1和Jimeng2。作者期待它成为提升专业工作流程和日常创意应用效率的必备生产力工具。 项目主页Seedance 技术报告https://lf3-static.bytednsdoc.com/obj/eden-cn/bdeh7uhpsuht/Seedance%201.0%20Paper.pdf -  生成效果 - - 2.论文详解 简介 当前的视频生成基础模型在平衡多维需求方面仍面临关键挑战特别是在遵循提示、运动合理性以及视觉保真度方面。为解决这些限制作者提出了Seedance 1.0Seedance 1.0整合了四项关键技术改进 多源数据与全面视频字幕。通过多阶段、多视角的策划和数据集平衡作者构建了一个涵盖多种类别、风格和来源的大型高质量视频数据集。这使得模型能够全面学习丰富的情景、主题和动作动态。高效架构设计。在作者的设计中空间层和时间层被解耦并通过交错的多模态位置编码进行整合。这使得模型能够在单一模型中同时学习文本到视频和图像到视频并原生支持多镜头视频生成。增强的后训练优化。作者使用一组精心收集的小数据集进行SFT监督微调随后采用针对视频的RLHF人类反馈强化学习算法。作者利用多个成熟的奖励模型显著提升了模型在文本到视频和图像到视频任务上的表现。推理加速。作者提出了一个多阶段蒸馏框架以减少生成所需的函数评估次数NFE并结合推理基础设施优化技术实现了超过10倍的端到端加速且模型性能未出现下降。 - 模型架构 变分自编码器VAEs 变分自编码器VAEs在现代大规模图像和视频生成模型中被广泛采用以减少后续扩散模型的计算量并促进高效的训练和推理。 通常变分自编码器由编码器和解码器组成编码器将原始冗余的像素信息压缩为紧凑的潜在表示而解码器则从这些潜在特征中重建原始输入。VAE重建的质量直接决定了生成过程能够实现的真实性和清晰度的上限而潜在表示的分布对后续扩散变换器DiT的收敛行为有着显著影响。 时间因果压缩遵循MAGVIT作者对编码器和解码器都采用了时间因果卷积它允许在潜在空间内联合进行图像和视频的空间-时间压缩。更具体地说模型将形状为的RGB像素空间输入数据转换为形状为的连续潜在表示其中表示时间、高度、宽度和通道维度, , 和 分别表示这三个轴上的下采样比率。得益于因果设计VAE模型可以在 T T 0 的情况下无缝处理图像输入和输出。整体压缩比由下式给出 在实践中作者分别设置和C 48。为了适应更高的下采样率并追求更好的生成性能作者在DiT侧移除了patchification操作遵循了DCAE中采用的策略。 “Patchification” 是一种在计算机视觉和深度学习中常见的图像处理技术特别是在 Vision TransformerViT模型中被广泛应用。它的核心思想是将输入图像分割成一系列不重叠的小块patches这些小块通常具有相同的大小例如 16×16 像素。这些小块随后被展平为一维向量并通过线性映射转换为模型可以处理的“tokens”类似于自然语言处理中的单词或短语。 VAE训练作者的VAE使用L1重建损失、KL损失、LPIPS感知损失和对抗训练损失进行训练。 其中对抗训练已被证明在提高VAE重建质量方面是有效的因为它对局部纹理和详细结构施加了更精细的监督。为了同时考虑外观和运动建模作者应用了一个具有类似于PatchGAN中使用架构的混合判别器。 DiT 通过VAE编码的视觉标记和文本编码器生成的文本标记作者采用Transformer作为扩散主干其中微调的大型语言模型LLM作为文本编码器。然后将视觉标记与文本标记连接并输入到变换器块中。 解耦的空间和时间层考虑到训练和推理效率作者构建了具有解耦空间和时间层的扩散变换器其中空间层在每一帧内执行注意力聚合而时间层则专注于跨帧的注意力计算。作者在时间层的每一帧内执行窗口划分允许在时间维度上具有全局感受野。此外文本标记仅参与空间层中的跨模态交互。 MMDiT架构对于变换器块作者遵循Stable Diffusion 3中的MMDiT设计其中多模态自注意力层专门应用于空间层以整合视觉和文本标记而自注意力层仅在时间层处理视觉标记。考虑到视觉和文本标记之间的语义差异作者在空间层中为两种模态使用两组独立的权重包括自适应层归一化、QKV投影和MLP。为了防止训练不稳定Q和K嵌入在注意力矩阵计算之前进行归一化。 多镜头多模态RoPE在本文中除了使用3D RoPE编码视觉标记外作者通过为文本标记添加额外的1D位置编码为连接的序列中添加了3D多模态RoPEMM-RoPE。MM-RoPE还支持视觉标记和文本标记的交错序列并可以扩展到训练多镜头视频其中镜头按照动作的时间顺序组织每个镜头都有自己的详细字幕。 统一任务范式为了实现条件视频生成作者将噪声输入与零填充帧沿通道维度连接并使用二进制掩码来指示哪些帧是需要遵循的指令。通过这种公式作者可以进一步统一不同的生成任务如文本到图像、文本到视频和图像到视频。在训练过程中作者混合这些任务并通过控制条件输入来调整比例。 Refiner 考虑到训练和推理效率作者采用了一个级联扩散框架来生成高分辨率HR视频。 基础模型首先生成480p视频然后通过一个refiner模型将这些视频放大到720p或1080p高分辨率视频以增强视觉细节和纹理。 refiner模型训练。为了便于训练扩散细化模型从预训练的基础模型初始化。与基础模型不同refiner模型在低分辨率LR视频的条件下进行训练。具体来说首先将LR视频上采样到高分辨率然后与扩散噪声沿通道维度连接形成扩散变换器的输入。 提示词工程 DiT中使用的文本是密集视频字幕的形式。因此我们需要使用一个大型语言模型将用户提示转换为相应的字幕格式。为了实现这一点作者基于Qwen2.5-14B进行初始化并采用两个阶段来实施高质量的提示工程PE监督微调SFT和强化学习RL。 监督微调。在SFT阶段作者通过手动标注合成了大量的用户提示及其密集字幕文本。作者特别区分了图像到视频i2v和文本到视频t2v任务因为它们在用户提示风格上有所不同。然后作者采用了完全微调策略来训练模型使其在标注数据上获得基本的改写能力。强化学习。然而由于模型幻觉的存在第一阶段SFT的结果不能保证改写结果的语义完全符合用户提示的要求。因此作者精心收集了正确和错误改写结果的配对数据集以执行直接偏好优化DPO训练。在这个阶段作者在SFT模型上使用了低秩适应LoRA微调策略。经过上述阶段作者的提示工程模型具有强大的理解用户提示的能力并能够以视频字幕格式给出精确且高质量的改写结果与DiT训练一致。 - 数据 本节特别详细介绍了作者精心策划视频数据的方法。作者开发了一个系统化的数据处理工作流程如图3所示其将大量异构的原始视频集合转化为一个经过提炼的、高质量的、多样化的、安全的数据集用于训练强大的视频生成模型。这个工作流程被部署为一个强大的自动化系统优化了对大量数据的高通量处理。 数据预处理 作者视频数据策划的核心是一个多阶段预处理流程旨在解决原始视频集合的挑战。每个后续阶段系统地提高数据集的标准为强大的模型训练做好准备。以下段落详细介绍了这一全面流程的每个组成部分确保只有符合作者严格标准的视频片段才能贡献给最终数据集。 以多样性为导向的数据来源。作者的视频数据获取策略优先考虑来自多样化的公共和授权存储库的合乎道德和法律的内容。作者旨在最大化覆盖关键维度包括片段时长、分辨率、主题例如人类、动物、物体、场景类型例如自然景观、城市环境、主体动作、类型例如纪录片、动画、艺术风格、摄像机运动学和电影制作技术。原始视频集合表现出显著的异质性并且通常包含不良元素这些是作者流程旨在解决的关键挑战。 镜头感知的时间分割。原始长视频不适合直接模型训练。作者采用自动化镜头边界检测技术通过分析帧间视觉差异或利用预训练检测器来识别自然场景转换。随后视频被分割成较短的片段最长持续时间为12秒。每个结果片段可能包含一个或多个时间上连贯的镜头保留局部叙事流程同时确保模型可处理的输入长度。 视觉叠加校正。许多源视频包含多余的视觉叠加如标志、水印、字幕或屏幕图形这些可能会引入噪声或偏见。作者的校正阶段使用基于启发式规则的系统和专门的对象检测模型的混合方法来识别这些遮挡。然后自适应裁剪帧以最大限度地保留主要视觉内容从而产生更干净、更专注的视频数据。 质量和安全过滤。为了确保模型在高质量和符合道德的数据上进行训练作者通过视觉评估和安全筛选实施严格的过滤。首先作者的专门视觉质量模型系统地识别并移除表现出视觉缺陷的片段如模糊、过度抖动、低审美质量、不良的电影构图或主要静态内容。其次作者严格排除有害或不适当的材料部署先进的分类器来检测涉及色情、明确暴力、儿童剥削和明确裸露的内容从而确保道德合规性和数据集安全。 语义去重。为了促进数据集多样性并防止模型过度拟合冗余内容作者执行语义去重。视频片段由从内部开发的视频表示模型中提取的稳健特征嵌入表示然后对这些嵌入进行聚类。在每个识别出的近重复集群中只保留具有最高整体质量分数来自前面的质量过滤阶段的单个实例。 分布再平衡。原始数据通常在各种属性上表现出显著的类别不平衡。作者通过量化针对不同语义和技术视角的属性如主题类别、场景类型、主导动作、类型、视觉风格、片段时长、分辨率和运动特征的频率来分析数据集的分布。对于过度代表的头部类别应用下采样。相反对于代表性不足的尾部类别作者在训练期间增加其采样概率并启动针对性的数据获取以增强其存在旨在更公平和全面地代表视觉世界。 视频字幕 视频字幕在很大程度上影响视频生成模型的指令遵循能力。作者主要通过提高字幕的质量和准确性确保重要内容和动作能够被正确地看到和描述。 字幕风格。作者采用了一种密集字幕风格整合了动态和静态特征。对于动态特征作者细致地描述视频片段中的动作和摄像机运动突出变化的元素。对于静态特征作者详细阐述视频中核心角色或场景的特征。 字幕元素。作者分别定义了动态和静态特征的具体类别。动态特征涵盖动作、主题或场景变化以及摄像机运动的类别而静态特征包括外观、美学、风格等。作者收集了这些类别的多样化数据并进行了高质量的手动标注以供训练。训练好的字幕模型能够准确描述复杂和抽象视频材料的关键内容。 模型训练。作者在标注数据上训练字幕模型使用的是Tarsier2这是一个具有强大视频理解能力模型。视觉编码器被冻结语言模型被完全微调。作者在中文和英文数据上进行训练以获得双语能力。在推理过程中作者使用PE模型将用户提示改写为详细的视频字幕其中格式在内容和结构上与训练字幕一致。 基础设施 工程基础设施概述作者的数据处理工程基础设施如图4所示由三层组成最上层是统一平台层它自动化了人工参与的工作流程管理任务可视化数据监控流程等中间层是计算框架层它采用BMF和Ray进行跨CPU/GPU/NPU架构的异构计算并优化资源分配以实现稳定和弹性计算最底层是底层资源层它利用来自ByteCloud内部和Volcengine外部的云基础设施。 高效的异构计算。为了最大化资源利用率作者的框架动态地将视频操作分配到最优硬件例如CPU用于解码GPU用于深度模型推理。计算单元之间的异步通信被用来减轻由不同类型计算硬件之间的性能差距引入的瓶颈。为了解决由弹性计算资源的不稳定性引起的复杂性作者的框架整合了两个关键能力适应性自动扩展以处理资源波动和预占任务的失败重试机制。定制版本的BMF和Ray实现了这些优化提供了近线性的可扩展性和极高的吞吐量以高效处理大规模视频训练数据。 - 模型训练 如图5所示作者展示了Seedance 1.0的训练和推理阶段。作者的训练过程分为几个子阶段包括预训练、继续训练CT、监督微调SFT和人类反馈对齐RLHF。作者的refiner也包括预训练、SFT和RLHF。图6展示了不同训练阶段的可视化结果每个阶段都可以逐步改进结果。 预训练 扩散调度在训练期间作者采用了流匹配框架和速度预测并且从对数正态分布中采样一个训练时间步。考虑到更高分辨率和更长时长的视频需要更多的噪声来扰乱它们的信号作者随后通过分辨率感知的偏移转换训练时间步这增加了对更高分辨率和更长时长视频的噪声扰动。 渐进式训练为了实现更高的数据吞吐量和训练效率作者首先用足够低分辨率的文本到图像256像素训练初始化模型然后在后续阶段逐步引入更高分辨率和更高帧率的视频模态1作者使用256像素的图像和3到12秒12帧每秒的视频片段进行图像-视频联合训练。2在第二阶段作者将训练分辨率提高到640像素同时保持相同的时长。3在最后阶段作者用24帧每秒的视频训练模型以进一步提高视频的流畅性。在视频预训练期间作者还保留了一小部分文本到图像任务以保持语义对齐并将图像到视频任务的比例设置为20%以激活遵循视觉提示的能力。 持续训练 Continue Training (CT) 由于图像到视频任务仅占预训练的一小部分模型在这一领域的潜力尚未被充分探索。为了解决这个问题作者引入了继续训练CT阶段专注于加强预训练后的图像到视频生成能力。在这个阶段作者将图像到视频的比例从20%提高到40%并进一步细化训练数据集以提高整体多任务性能。 高质量数据选择。作者使用一系列专门的评估模型包括基于光流的审美评分器和运动评估器从预训练数据中选择具有更高审美质量和更丰富运动动态的子集。由于图像到视频任务中总是提供第一帧作者设计了两种类型的字幕进行训练1包含动态和静态内容详细描述的原始长字幕以及2仅关注运动动态的短字幕通过移除与第一帧对应的静态描述。这鼓励了与训练目标更强的语义对齐。 训练策略。在继续训练期间作者使用的GPU数量略少于预训练阶段同时保持退火学习率策略。更丰富的运动动态和多样化的字幕使模型能够生成更自然、更流畅的视频。此外训练数据的更高审美质量显著提高了文本到视频生成的视觉保真度。因此最终模型支持文本到视频和图像到视频任务并具有增强的整体性能。 监督微调 继持续训练CT之后作者执行监督微调SFT以进一步使模型的输出与人类对视觉质量和运动连贯性的偏好保持一致。在这个阶段模型在一组经过精心策划的高质量视频-文本对上进行训练这些视频-文本对的字幕已经过人工验证使模型能够生成具有更好美学和更一致运动动态的视频。 人工策划的数据集。确保数据质量和分布平衡至关重要。为了实现这一点作者基于视觉风格、运动类型和其他关键属性定义了几百个类别。然后作者在每个类别中有针对性地收集数据从而形成一个策划好的高质量视频样本数据集这些样本具有准确且有意义的字幕。 模型合并。为了充分利用高质量数据作者在策划好的子集上训练不同的模型这些子集旨在捕捉各种风格、运动和场景。随后这些生成的模型被合并成一个单一的模型该模型整合了它们各自的优势。每个模型都使用比预训练时更小的学习率进行训练并使用了有限数量的GPU。此外作者在有效点应用提前停止以防止过拟合并保持文本可控性。最终的合并步骤显著提高了视觉保真度和运动质量。 强化学习 反馈数据基础设施 作者从训练数据集和在线用户那里收集提示并对提示进行数据平衡和信息过滤以丢弃重复和模糊的提示。作者为人类偏好标记收集高质量的视频数据对包括由模型不同阶段生成的合成视频。实验结果表明纳入多种来源的视觉材料可以进一步增强RM模型的领域能力扩展RM的偏好上限并加强泛化能力。在标记过程中作者采用多维注释方法即在特定标记维度下选择最佳和最差的视频同时确保最佳视频在其他维度上不比最差视频差。 奖励模型 为了全面提高模型性能作者设计了一个复杂的奖励系统包括三个专门的奖励模型基础奖励模型、运动奖励模型和美学奖励模型。这些特定维度的奖励模型结合针对视频的RLHF优化策略使模型能力在多个方面得到全面改进如图7所示。基础奖励模型专注于增强基本模型能力如图像-文本对齐和结构稳定性。作者采用视觉-语言模型作为该奖励模型的架构。运动奖励模型有助于减少视频伪影同时增强运动幅度和生动性。鉴于视频美学主要来源于关键帧作者设计了美学奖励模型该模型从图像空间输入灵感来自Seedream数据源修改为使用视频中的关键帧。 基础模型反馈学习 奖励反馈学习已在当前扩散模型中广泛使用。在Seedance 1.0中作者在训练期间模拟视频推理管道当奖励模型RM充分评估视频质量时直接预测x0生成的干净视频。优化策略直接最大化来自多个RM的复合奖励。与DPO/PPO/GRPO的比较实验表明作者的奖励最大化方法是最有效率和效果的方法全面提高了文本-视频对齐、运动质量和美学。此外作者在扩散模型和RMs之间进行多轮迭代学习。这种方法提高了RLHF过程的性能界限并且比RM的动态更新更稳定和可控。 超分辨率RLHF框架 如图8所示作者还将RLHF应用于扩散refiner这可以被视为基于扩散的条件生成模型。在训练期间低分辨率VAE潜在空间表示作为超分辨率模型的条件输入而生成的高分辨率视频由多个奖励模型评估。作者直接最大化这些奖励信号的线性组合。值得注意的是作者的方法直接将RLHF应用于加速细化模型有效地在低NFE场景中增强运动质量和视觉保真度同时保持计算效率。 - 推理优化 模型加速 DiT优化。为了加速DiT推理作者采用了扩散蒸馏技术来减少生成所需的函数评估NFE数量。作者引入了在HyperSD中最初提出的轨迹分割一致性蒸馏TSCD技术该技术将去噪轨迹分割成多个片段并在这些片段之间强制执行预测状态和目标状态之间的一致性。这允许学生模型以更少的步骤学习扩散过程的准确近似。使用TSCD作者的DiT模型在4倍加速下表现竞争提供了速度和保真度之间的强平衡。 TSCD技术的核心在于将整个时间步范围 [0,T] 划分为多个子区间例如 k 个子区间然后在每个子区间内独立执行一致性蒸馏。具体步骤如下 分段一致性蒸馏在每个子区间内使用教师模型通常是预训练的扩散模型来指导学生模型的学习确保学生模型在每个子区间内能够复现教师模型的行为。 逐步减少子区间数量随着训练的进行逐步减少子区间的数量例如从8个减少到4个再到2个最后到1个使得学生模型能够逐渐逼近教师模型的全局行为。 全局一致性蒸馏最终基于前面阶段的分段一致性结果执行全局一致性蒸馏确保学生模型在整个时间范围内的一致性。 为了进一步推动加速作者引入了来自RayFlow的得分蒸馏该技术使用期望噪声一致性将学生模型预测的噪声即得分函数与教师模型对齐。这种方法支持每个样本的轨迹级优化即使在低NFE下也能实现更稳定和自适应的采样。它有效地提高了泛化能力并在快速生成过程中减少了伪影。 得分蒸馏的核心思想是利用预训练的扩散模型教师模型来指导学生模型的学习。具体来说教师模型通过添加噪声并预测噪声的方式来生成数据学生模型则尝试学习教师模型的这一过程。通过最小化学生模型预测的噪声与教师模型添加的噪声之间的差异学生模型能够逐渐逼近教师模型的行为。 为了提高视觉质量作者将APT中的对抗性训练策略扩展到多步蒸馏设置中纳入人类偏好数据进行监督。一个学习到的判别器引导学生模型朝着人类判断更偏爱的输出方向发展有效地减轻了激进加速产生的伪影并增强了感知真实性。 通过提出的蒸馏管道作者的最终蒸馏模型在四个专家评估的维度上取得了与原始模型相当的结果提示对齐、运动质量、视觉保真度和与源图像的一致性。 VAE优化。在视频生成任务中从潜在空间到像素空间的解码过程会产生显著的计算成本。作者对VAE解码器进行了分析发现接近像素空间的阶段主导了延迟。通过缩小这些阶段的通道宽度作者设计了一个精简的VAE解码器。用固定的预训练编码器重新训练它作者在不损失端到端视频生成的视觉质量的情况下实现了2倍的加速。 推理基础设施 高性能内核。作者对模型的核心模块进行了广泛的内核融合工作使模型推理吞吐量累计提高了15%。 量化和稀疏化。基于Seedream的技术解决方案作者实现了针对注意力Attention和Gemm操作的细粒度混合精度量化。此外作者的探索揭示了DiT的稀疏属性在不同模态之间和内部展现出层次化和块状结构。在AdaSpa建立的方法论基础上作者引入了一个简化的调优解决方案专注于最小化搜索阶段的开销。此外作者已成功将优化的细粒度注意力量化方法整合到该方案中。作者致力于减轻全量化和稀疏化对像素级生成质量的影响。作者在性能和效率之间取得了最佳平衡。 并行策略。为了减少视频生成模式中长序列所分配的大量内存作者提出了一种定制的自适应混合并行策略有效地分割序列。这种方法整合了上下文并行的概念来优化通信过程使通信开销减少到Ulysses观察到的水平的四分之一。同时作者通过引入FP8通信进一步减少了端到端通信开销。 异步卸载策略。由于注意力计算量大且模型尺寸大作者开发了一种自动化和自适应的异步卸载策略。作者成功解决了在内存受限设备上部署大模型的问题性能下降不到2%。 分布式VAE的混合并行。此外为了解决VAE解码器导致的高GPU内存消耗问题作者实施了一种自适应混合并行策略。该方法同时沿空间和时间维度分割输入数据并采用高效的集体通信进行Conv3D计算。因此作者进一步提高了并行扩展性能。 管道优化。作者采用了内核融合、量化、并行化、连续批处理、前缀缓存和其他常用技术有效提高了提示工程的整体吞吐量。此外为了解决长视频中低编码效率的问题作者实施了视频编码加速解决方案。这些创新有效地提高了整个推理管道的端到端效率。 - 训练基础设施 预训练优化 为了支持在数千个GPU上高效进行长上下文视频模型的大规模预训练作者设计了一个高度优化的训练基础设施。该系统专注于最大化硬件效率、可扩展性和鲁棒性。它整合了高性能内核融合、混合并行策略、多级激活检查点MLAC、运行时感知工作负载平衡和多级容错。这些组件协同工作确保在不同的工作负载和硬件规模下进行稳定、高吞吐量的训练。 高性能内核。为了充分利用GPU硬件资源作者结合了torch.compile和手工制作的CUDA内核以提高性能关键操作的性能。作者识别出内存绑定操作并将它们融合成单个CUDA内核以最小化冗余内存访问例如旋转位置编码RoPE和归一化。这些融合的内核将中间结果存储在寄存器或共享内存中显著提高了算术强度并将全局内存流量减少了90%以上。 并行策略。作者采用了结合数据并行和序列并行的混合并行策略以在数千个GPU上高效训练长上下文模型。具体来说作者采用了混合分片数据并行HSDP进行内存高效的权重分片并减轻了在扩展到数千个GPU时观察到的性能下降。对于序列并行作者遵循了Ulysses方法沿序列和头部维度在GPU间分片标记以实现长视频样本的并行处理。 多级激活检查点。作者采用多级激活检查点MLAC策略在反向传播期间以可忽略的重新计算开销减少GPU内存压力。MLAC实现了优化的异步缓存和预取机制以最大化内存传输和前向/后向计算之间的重叠。作者利用MLAC优先卸载模型训练期间具有最高重新计算成本的操作符ops的输出张量例如注意力和MLP模块中的FC2层。此外MLAC被应用于卸载激活检查点模块的输入张量以实现GPU内存中零激活占用这允许作者降低序列并行度从而减少通信开销。 工作负载平衡。大规模视频预训练通常涉及异构数据类型例如长视频与短视频、不同分辨率这在GPU之间引入了显著的计算不平衡。为了解决这个问题作者应用了运行时感知的工作负载平衡策略利用额外的全对全通信步骤在GPU之间均匀分配工作负载。这种平衡策略在每个批次内执行以保持数据一致性并在后台异步预计算以避免阻塞主训练循环。作者的方法显著减少了GPU之间的空闲时间并提高了整体训练吞吐量。 容错。在数千个GPU上长时间运行的大规模训练作业中短暂的故障是不可避免的。为了确保鲁棒性作者在多个层面集成了容错。首先作者实现了模型和优化器状态的定期检查点完全支持FSDP分片权重。数据加载器的状态也被保存以确保精确恢复。其次作者在启动每个作业之前进行了彻底的机器健康检查以消除潜在的落后者和故障节点。第三作者减少了模型初始化开销以最大化有效训练时间。例如作者利用PyTorch的元张量初始化直接加载模型参数消除了通常花在标准初始化上的时间。综合这些策略提高了训练的可靠性并最大限度地减少了长时间分布式运行期间硬件或软件故障的影响。 后训练优化 后训练主要包括三个阶段监督微调、强化学习和蒸馏。在这个阶段不仅要优化训练效率还要最小化GPU内存消耗例如减少峰值内存使用和碎片化并提高整体内存利用率。后训练阶段观察到的次优GPU内存利用主要源于三个因素 内存竞争。在强化学习和蒸馏阶段GPU内存被各种组件顺序和动态共享包括文本编码器、DiT、VAE、奖励模型及其对应的激活张量。复杂的训练模式。可训练和冻结模型组件的共存使内存管理复杂化并引入了额外的优化挑战。多样化的工作负载。长和短视频序列的同时存在创造了可变的内存需求使得传统的静态内存优化方法无效。 为了有效解决这些挑战作者开发了一个动态内存管理框架该框架结合了CPU卸载和重新计算技术。此外作者采用了预训练期间使用的并行策略利用FSDP和序列并行来实现高效的多节点扩展。 内存优化。为了确保简单易用作者利用PyTorch实现了CPU卸载从而最小化对用户代码的侵入性修改。通过详细的分析和建模作者确定了最佳的CPU卸载和重新计算策略。此外作者应用了局部静态内存规划以减轻频繁分配和释放不同大小张量引起的内存碎片化。并行策略。为了最大化硬件利用率作者根据不同模型的计算特性在不同模型之间配置了不同程度的序列并行。此外作者设置了TORCH_NCCL_AVOID_RECORD_STREAMS1以消除延迟内存释放问题。此外作者手动管理free_event_queue以解决FSDP中参数冻结时参数释放延迟的问题。此外作者利用register_post_backward_reshard_only_hook在冻结模式下调整反向计算期间内存分配和释放的顺序。这些优化确保了即使在涉及多个模型组件和多样化视频工作负载的复杂场景中也能实现稳定高效的后训练性能。 - 模型表现 本节提供了对Seedance 1.0的全面评估 Artificial Analysis Arena Artificial Analysis已成为一个广泛认可和信赖的基准测试平台特别是在图像和视频生成领域。它提供了一个开放的竞技场各种生成模型在这里由公众评估和打分。利用大量的比较结果该平台计算Elo分数以反映用户对不同模型的偏好。人工分析视频竞技场排行榜包括两个不同的赛道文本到视频和图像到视频。Seedance 1.0参加了这两个类别。一些值得注意的外部竞争对手包括Veo 3、Kling 2.0、Runway Gen4、OpenAI Sora和Wan 2.1。 Seedance 1.0在文本到视频和图像到视频排行榜上均位居榜首显示出相对于竞争模型的显著性能优势。特别是它在图像到视频任务中以超过100分的优势超过了排名第二和第三的最佳模型Veo 3和Kling 2.0。值得注意的是Seedance 1.0在两个任务中都取得了最先进的结果使用的是单一统一模型而以前的模型通常在一个领域表现出色而在另一个领域表现不佳。接下来的章节将详细分析Seedance 1.0在每种情况下的优势。 综合评价 除了整体用户偏好之外一个全面的基准测试对于视觉生成模型的评估同样重要因为它能够更全面地评估模型的能力。作者开发了SeedVideoBench-1.0这是一个全面的用于视频生成的基准测试包括了300个文本到视频T2V和图像到视频I2V的提示。然后作者与电影导演专家合作共同开发评估标准并进行了详细的手动专家评估。 SeedVideoBench 1.0 为了全面评估视频生成模型在不同场景下的能力作者提出了SeedVideoBench-1.0这是一个通过系统分析真实世界用户提示而设计的基准测试。这个基准测试涵盖了广泛的应用场景包括特效、电子商务和专业生成内容PGC。此外作者还开发了一个详细的分类系统来评估模型的能力。以下部分以文本到视频为例展示了主要标签类别的分类。 主体首先评估模型准确生成主要实体的能力是至关重要的包括人类、动物、自然场景、消费品和一些虚拟主体。主体描述重点是模型产生准确表示主要主体的能力。它包括主体数量、实体属性例如人类主体的外观特征物理项目的物体属性和空间定位。动作动作模拟和生成代表了视频生成模型的基本能力表明它们在捕捉现实世界动态和潜在物理法则方面的熟练程度。这个类别评估多个类别中的与运动相关的行动包括人类活动、多实体交互、动物运动、体育动作、自然现象例如天气事件、生物过程、物理原理例如重力、流体动力学和创造性或富有想象力的运动模式。动作描述这个类别提供了对动作生成的更细粒度分析专注于动作数量、运动方向、时间顺序、运动强度和情感状态的表达。摄像机摄像机语言组件反映了视频生成中艺术表达的独特维度包括摄像机运动、拍摄角度、镜头大小定义和变化以及多个镜头之间的转换。SeedVideoBench-1.0整合了一系列专业的摄像机运动包括环形跟踪镜头、推轨镜头、希区柯克式变焦、横向平移和跟随镜头。美学描述美学评估是评估视觉生成模型的一个重要组成部分。这部分包括风格一致性、构图氛围、光影动态和其他影响生成视频整体美学质量的因素。 图像到视频的分类类似增加了对第一帧的标签系统。对于文本到视频和图像到视频任务作者各构建了300个提示均匀分布在上述类别中。每个类别的提示数量旨在确保评估中具有足够的区分性和统计信心。 评估指标 通过与电影导演合作作者开发了一套针对生成视频的专业评估指标使评估能够从专业角度进行。与通常强调审美吸引力而忽视模型能力细微差别的公众偏好评估不同该框架围绕四个核心维度构建。 运动质量运动质量是生成视频给用户的首要直观印象。它包括结构准确性、运动合理性、运动稳定性和运动生动性等多个方面。结构准确性侧重于检测生成内容中的结构异常如额外的肢体、截断、不自然的弯曲或非人类姿势。运动合理性涉及轨迹和速度的物理合理性遵循物理定律和常识并识别不自然静止的主体或运动幅度不足的主体。此外运动稳定性评估用于检测由主体或背景动态引起的伪影而运动生动性则涉及动作序列的连贯性和真实性包括宏观结构完整性和摄像机运动的艺术质量。提示遵循提示遵循代表了生成模型的基础能力反映了它们产生与人类意图一致的内容的能力。此评估侧重于多个维度包括动作响应性、主体描述保真度、风格一致性、辅助实体的整合、动作的时间对齐、摄像机行为和环境描绘准确性。美学质量对生成视频中美学吸引力和视觉质量的评估强调视觉纹理、AI感知的可察觉性、材料细节的真实性以及美学意图的艺术表达。原始图像保留针对图像到视频任务的原始图像保留通过多个维度进行评估包括主体一致性、风格连贯性、材料真实性、视觉内容对齐以及颜色和照明的一致性。 人类评估 利用SeedVideoBench 1.0作者对Seedance 1.0与几个领先的视频生成模型在文本到视频和图像到视频生成两个任务上进行了全面的比较评估。对于文本到视频任务比较的模型包括Kling 2.1(Master)、Veo 3、Wan 2.1和Sora对于图像到视频任务Sora被Runway Gen4取代。作者采用了两种评估协议绝对评分和好-相同-坏GSB比较指标。绝对评分采用五点李克特量表其中1表示极度不满意5表示非常满意便于跨模型统一性能比较。GSB指标进行成对比较以评估相对视频质量能够对模型输出进行细粒度区分。 图10和图11显示了文本到视频任务中视频生成模型的绝对评分和GSB结果。Seedance 1.0、Kling 2.1和Veo 3显著优于其他模型。虽然Kling 2.1展示了强大的运动质量和视觉保真度但其有限的提示遵循能力对其整体效果产生了负面影响。在文本到视频生成中精确的指令遵循对于生成内容的采用至关重要。Seedance 1.0和Veo 3展示了卓越的提示遵循能力推动了它们在人工分析排行榜上的更高排名。Veo 3擅长生成逼真的视频但其相对较弱的运动质量限制了其进行复杂视频合成的能力。 图12和图13展示了图像到视频任务的绝对评分和GSB结果。Seedance 1.0和Kling 2.1在这种情况下表现出强劲的整体性能。将图像输入作为条件引入了在保留角色和背景方面的挑战。Veo 3在这方面表现相对较弱偶尔会改变参考图像的光照条件、物体纹理和其他视觉元素。此外它还遭受一些质量退化问题如油腻的外观或模糊的细节这大大影响了其整体效果。Kling 2.1在运动质量方面表现出色产生自然且连贯的动态适合复杂场景尽管偶尔会经历细节崩溃。Seedance 1.0在涉及复杂镜头转换或详细指令提示的场景中与Kling 2.1的运动质量相匹配同时提供了更优越的提示遵循能力从而实现了更有利的整体性能。  多镜头生成 Seedance 1.0展示了从单个提示生成多个连续镜头的能力同时确保了跨帧的主题连续性和风格连贯性。这使得模型能够处理电影叙事中常用的复杂叙事技术。具体来说Seedance 1.0有助于构建用于对话互动的镜头反转镜头序列以及使用切入镜头和切离镜头来丰富叙事节奏和上下文分层。此外它还支持匹配剪切和动作剪切实现无缝过渡并保持视觉连续性。这些能力突出了Seedance在电影镜头构图和时间连贯性方面的熟练程度为视频内容生成提供了增强的创意控制和叙事表现力。图14显示了Seedance 1.0生成的连续镜头转换示例与其他模型相比该模型显示出更连贯和流畅的电影故事讲述。  - - 总结 Seedance 1.0 是字节跳动推出的一款高性能、推理高效的视频生成基础模型旨在突破当前视频生成模型在指令遵循、运动合理性与视觉质量平衡方面的瓶颈。该模型通过多源数据整合与精准视频字幕生成实现了跨多样化场景的全面学习能够处理复杂多主体的上下文并生成高质量的视频内容。在架构设计上Seedance 1.0 采用了高效的解耦空间和时间层的 Transformer 架构并通过多模态位置编码和窗口注意力机制进一步提升了模型效率。此外该模型还通过细粒度监督微调和多维度奖励机制的强化学习RLHF进行优化显著提升了运动自然性、结构连贯性和视觉保真度。为了实现快速推理Seedance 1.0 还采用了多阶段蒸馏策略和系统级优化实现了 10 倍的推理加速能够在 NVIDIA-L20 上仅用 41.4 秒生成 5 秒的 1080p 视频。 在数据处理方面Seedance 1.0 通过多阶段数据预处理和视频字幕生成构建了一个大规模、高质量的视频数据集。数据预处理包括从多样化来源获取视频、进行合规性预筛选、基于镜头的分割、视觉覆盖校正、质量与安全过滤、语义去重以及分布再平衡等步骤。视频字幕生成则采用了密集字幕风格结合动态和静态特征通过高质量的手动标注数据训练字幕模型以确保生成的字幕能够准确描述视频内容。 在模型训练阶段Seedance 1.0 采用了预训练、继续训练CT、监督微调SFT和人类反馈对齐RLHF等多种训练策略。预训练阶段通过逐步提升分辨率和帧率来优化模型性能继续训练阶段则专注于增强图像到视频生成的能力监督微调阶段利用高质量的视频-文本对来进一步对齐模型输出与人类偏好而人类反馈对齐阶段则通过多维度奖励模型和强化学习来优化模型的运动自然性和视觉保真度。 在推理优化方面Seedance 1.0 通过模型加速和推理基础设施优化实现了显著的效率提升。模型加速方面采用了扩散蒸馏技术如轨迹分割一致性蒸馏TSCD和分数蒸馏以减少生成所需的函数评估次数NFE同时保持模型性能。推理基础设施方面通过高性能内核融合、量化、稀疏化、并行化策略和异步卸载策略等技术进一步提升了模型的推理效率。 Seedance 1.0 在多个评估指标上表现出色包括在人工智能分析竞技场Artificial Analysis Arena的文本到视频和图像到视频排行榜上均排名第一。内部评估方面Seedance 1.0 在 SeedVideoBench 1.0 基准测试中展现了卓越的性能尤其是在多镜头生成和多风格对齐方面表现出色。该模型能够生成具有复杂叙事结构的多镜头视频并在多种视觉风格之间无缝切换展现出强大的泛化能力和创造性控制。 总的来说Seedance 1.0 通过技术创新和优化在视频生成领域实现了高质量、高效率的生成体验有望成为提升专业工作流程和日常创意应用的重要工具。 如果你觉得这篇文章对你有帮助或者让你眼前一亮别忘了点赞和收藏哦✨ 你的每一个点赞都是对我最大的支持每一次收藏都是对我努力的认可。希望我的内容能为你带来启发也期待在未来的日子里继续为你提供更多有价值的信息感谢有你
http://www.dnsts.com.cn/news/78850.html

相关文章:

  • 百度做网站骗人到哪里去投诉脑白金网络营销方式
  • 做网站用的代码成都那家做网站好
  • wordpress设置主从库苏州排名搜索优化
  • 北京市西城区住房建设局官方网站中山移动网站建设多少钱
  • 邯郸做网站推广的地方网站建立多少钱
  • 产品展示型网站模板有哪些网站用vue做的
  • c#+网站开发实例页面模板是需要原创功能才能有吗
  • 怎样创建网站视频中国主流媒体平台有哪些
  • 做网站背景的图片家装公司起名
  • 网站上传后台在哪北京企业免费建站
  • 长沙网站推广有哪些啊开一家网站建设公司好
  • 团购网站开发语言站内搜索工具
  • 广东建设人才网站反向代理wordpress
  • 专业网站建设最便宜网站建设企业模板丫
  • 一个新手如何做网站wordpress手册下载
  • 诸城网站价格做网站用什么技术好
  • 地方网站有何作用金华市开发区人才网
  • 高性能网站建设 pdf长沙网站优化公司
  • 阿里巴巴的网站二维码怎么做建设银行网站点不了
  • 网站建设团队定制可以做外链的音乐网站
  • 响应式网站跟自适应网站的区别游戏网站做代理
  • 建站点的步骤饰品网站模版
  • 天津 建设执业资格注册中心网站表白网站制作教程
  • 网站建设有哪种方式杭州网络公司哪家服务比较好
  • 做网站能致富吗婚恋网站
  • 石河子规划建设局网站计算机网站建设方向
  • 机关网站制度建设网站自己做服务器划算吗
  • 建德网站优化公司广西住房和城乡住建厅官网
  • 网站开发代做黑河企业网站建设公司
  • 企业公司网站模板下载企业seo网站推广公司