展示网站报价方案,seo排名关键词点击,上海网站建设网页制作培训,网站建设引入谷歌地图编者按#xff1a;相较于前两年#xff0c;2023年音视频行业的使用量增长缓慢#xff0c;整个音视频行业遇到瓶颈。音视频的行业从业者面临着相互竞争、不得不“卷”的状态。我们需要进行怎样的创新#xff0c;才能从这种“卷”的状态中脱离出来#xff1f;LiveVideoStack… 编者按相较于前两年2023年音视频行业的使用量增长缓慢整个音视频行业遇到瓶颈。音视频的行业从业者面临着相互竞争、不得不“卷”的状态。我们需要进行怎样的创新才能从这种“卷”的状态中脱离出来LiveVideoStack 2023上海站邀请到了PPIO边缘云的创始人王闻宇和我们分享了他针对这一问题进行的思考。本次分享包括近年音视频行业的分析、国外4款AIGC应用工具介绍、最新论文情况介绍以及王闻宇对行业的看法和展望以期为音视频从业者提供更具广度的行业视角。 文/王闻宇 整理/LiveVideoStack 大家好今天有幸再次来到LVS的讲台给大家做分享。今天主要分享国外比较出名的音视频工具及理论依据以及一些视频AIGC相关最新论文的情况还有我对行业情况的思考。 我是王闻宇现任PPIO边缘云联合创始人和CTO。从业音视频行业多年、之前PPTV网络电视创业团队成员也是架构师。现在在做PPIO边缘云是以提供算力为核心的服务主要服务音视频传输转码云端渲染和AIGC等业务。下面这张图片是我用AIGC做的照片。 -01- 发生了什么 首先2023年发生了什么事 这张图摘自《2023中国网络视听发展研究报告》。可以明显看到整个音视频行业的使用量已经达到了增长缓慢的极限。比起22年底21年底用户人数只增加了一个百分点。22年产业的市场规模的增长速度也只有4.4个百分点。整个音视频行业遇到了瓶颈开始进入一个很缓慢的时代。 这是我们音视频行业的从业者面临着“卷”的根源大家都在相互竞争。我们怎么样创新才能从这种“卷”中出来 过去一年世界发生了什么请看下图这是ChatGPT它达到一个亿的用户只用了两天的时间超过了历史上所有的APP甚至包括TiktokInstagramSnapchatFacebook等。 再看下图Stable Diffusion成为历史上增速最快的项目。和它对标的项目是比特币、以太坊、kafka、spark等知名项目。而且Stable Diffusion基本上是垂直的线一天时间就达到了几万关注。 这就是这次的十倍变化要素AI的魅力。 这里回溯一下AI的发展过程①在20世纪50年代就有了基于规则的少量数据处理后来80年代基于统计学发展出了机器学习②21世纪后伴随显卡的性能提升神经网络深度学习逐步得到应用③特别是2014-2017年神经网络得到一系列的发展包括CNN卷积神经网络RNN、循环神经网络、VAE、GAN生成对抗网络等AI在很多领域有了落地的应用。④直到2017年Transfarmer的伟大发明带领我们进入了今天大语言模型的时代。⑤后来在2020年Diffusion的发明非常惊艳的生成图片效果点燃了AIGC绘画的的浪潮。 那么视频在什么时代呢我的看法是视频可能离走过这个鸿沟还有一定距离这是在我分析过国外的APP后得出的想法。 接下来我给大家分享4款AIGC的应用。 -02- 音视频应用AIGC在萌芽 第一款应用是D-ID它的核心是实现面部的动画。 这是对他们公司做的分析包括融资和创始人的经历。国外音视频的创业者并不都是名校毕业生。中国人只要再努力一下是很容易超越国外的产品的。 关于技术的实现在他们CEO的一篇演讲中有提到如何将声音和嘴型进行对齐的内容还提到了一种音频驱动人脸的全神经辐射的技术。 它的本质是把一个图像从2D生成3D的建模过程但是文章中没有提到具体是怎么做的我们根据AD-NeRF进行相关的假设。 AD-NeRF这篇资料讲述了音频驱动人脸的技术原理。AD-NeRF是一种由语音信号直接生成说话人视频的算法仅需要目标人物几分钟的说话视频该方法即可实现对该人物超级逼真的形象复刻和语音驱动。首先利用人脸解析方法将整个训练画面分为三部分分别是背景、头部和躯干。其次通过头部的前景和背景的后景去训练头部部分模型。然后通过头部部分隐函数生产的图像和背景作为后景再把躯干作为前景去训练躯干部分的模型。 同时声音部分也作为AD-NeRF模型的一个新的特征输入通过DeepSpeech的方法将声音转化成29维的特征数据输入到AD-NeRF模型当中。 在生成图像的时候通过对头部模型和躯干模型输入相同的特征其中包括音频特征和姿态特征来完成AD-NeRF模型的推理。在最终立体渲染图像的过程当中首先采用头部模型积累像素的采样密度和RGB值把渲染好的头部图像贴到静态背景上然后躯干模型通过预测躯干区域的前景像素来填充缺失的躯干部分。通过以上的方法AD-NeRF实现了音频驱动人脸当中头部与上身运动一致并让产生动作与表情非常自然。 第二个分享的是Wonder Studio AI。它的两位创始人不是计算机工程师一个是艺术家一个是《头号玩家》的演员。它是在电影中或视频中把一个真实的人换成另一个真实的人或数字人。 这个项目的融资不多但做的东西非常惊艳。两位创始人都是电影制片人还有一些顾问共同实现这个体系。有两篇文章提到他们项目的实现方法一篇是他们的官方文章另一篇是国内一位博主对他们进行的分析。 要做到视频内CG角色的实时替换首先利用Opnepose等人体姿态估计算法对人物的3D姿态进行捕捉并将其与建模好的CG模型进行绑定。其次由于选定人物与CG模型在视频中所占的空间环境不同因此需要对选定人物的轮廓进行精准识别并经过一定的处理让选定人物仿佛在原视频中没有出现过一般这里需要采用人物擦除算法。 目前由清华团队提出的Inpaint Anything能够轻松实现这一需求。该算法基于Meta开源语义分割算法Segment Anything ModelSAM对目标人物轮廓进行精准识别生成Mask再利用图像生成算法LaMa或stable Diffusion能够实现对Mask的图像内容进行自定义填充。 但Wonder Studio官方没有提到他们的方案具体是怎么实现的以上是我就这个技术本身做的想法。 第三个工具是AIGC的官方应用叫做Runway它的定位是新一代的艺术也是一个2c的产品。它提供了一个平台可以对视频进行风格编辑还有一系列的工具。它分为两代Gen1和Gen2。Gen1只能视频转化成视频视频加上文字最后转化为视频。 这家公司的融资背景非常深厚在过去几年紧跟AIGC的浪潮及爆发性场景的应用。值得注意的是它的三位创始人员都是艺术家。而我们国内创业或公司创新的人都是工程师或者学术方面的人员。这家公司都是艺术家创业可见他们更注重做出来的东西的感受。这也体现了东西方文化上的差异。 已有的研究中表明CLIP的图像embedding对图像内容在图像中的位置和形态不敏感而更关注内容本身因此它是与深度这一结构信息较为“正交”的使得Gen-1可以将图像解耦为彼此干扰较小的结构信息和内容信息。 Gen-1和Stable Diffusion路径很像把中间的竖线去掉基本上就是Stable Diffusion的架构。它把一个原始的视频形成画面图像的深度图作为结构信息、CLIP编码器的图像embedding作为内容信息在隐空间进行扩散模型的训练。生成的时候也是把输入的文本通过CLIP方式转化回去最后再进行干预就能呈现视频的结果。不同的是它还运用了图片的模式转化即MiDaS把图片生成一个框架再干预这个环节。大概的技术原理是用文本干预视频的过程从而得出最后的效果。 https://arxiv.org/abs/2302.03011这篇论文是他们的官方论文。这个应用思路其实比较简单如果大家要做也不会很困难。 第四个工具是Rewind。这个工具特别厉害很遗憾的是它只能在苹果电脑上使用。它把大家日常工作的内容全部录下来整理后再通过GTP进行对接。这个工具严格来说不是完整的视频应用但它是个类视频应用我是它的重度用户。可以通过回拉里面的进度条得知自己今天做的任何事里面的文本也是可以摘出来的。 这个公司很有意思Altman投了2轮种子轮和天使轮另外还拿到了很多知名的投资。 这个工具很有创意它和音视频技术关系不大。核心点是调用了苹果的M1和M2芯片的接口对显示的内容做OCR再把OCR后的内容用文本方式存起来 另外官方宣称它用了H.264技术进行压缩来同时把视频录制了下来。但是这里我是持怀疑的能把视频大小压缩到70倍但我觉得H.264的技术还有些挑战 最后再把OCR的文本通过向量工程的方式和Chatgpt对接从而具备了智能能力。当你问它Rewind你做了什么它通过向量工程向Chatgpt调API来完成这一过程所以它基本可以帮你总结出你每天都做了什么你之前遇到了什么问题。它能够对你的日常工作进行归类这是我用这个工具的原因。 其实AIGC视频工具还有很多我这里讲的4个是比较典型的使用场景。 -03- 视频生成研究最新趋势 另外谈谈我对视频生成技术的学习和研究。 生成的本质是什么我认为生成的本质是高维空间建立映射不论是文字、图片还是视频、音频最终都会转化为数学问题并在高维空间中建立起映射。而人脑正是因为能够建立起这种高维的映射才能形成一定的智能。 前面也提到的CLIP是非常关键的技术是StableDiffusion的子模型打通了文本和图像的映射关系。CLIP的原理是对文本和图片分别通过Text Encoder和Image Encoder输出对应的特征然后在这些输出的文字特征和图片特征上进行对比学习再将它进行映射。 为了训练CLIPOpenAI从互联网收集了共4个亿的文本-图像对论文称之为WIT(Web Image Text。WIT质量很高而且清理得非常好其规模相当于JFT-300M这也是CLIP如此强大的原因之一。 这是谷歌的一篇论文讲的是视频的Diffusion Model它可以理解为是StabDiffusion的变种它在StableDiffusion的每个过程中都引入了一个时间维度t以实现时间注意力机制使得它生成的画面之间有一定的联系。 为了使扩散模型适用于视频生成任务这篇论文提出了3D UNet该架构使用到了space-only 3D卷积和时空分离注意力。具体来说该架构将原UNet中的2D卷积替换成了space-only 3D卷积space-only 3D convolution。随后的空间注意块仍然保留但只针对空间维度进行注意力操作也就是把时间维度flatten为batch维度。在每个空间注意块之后新插入一个时间注意块temporal attention block该时间注意块在第一个维度即时间维度上执行注意力并将空间维度flatten为batch维度。论文在每个时间注意力块中使用相对位置嵌入relative position embeddings以便让网络能够不依赖具体的视频帧时间也能够区分视频帧的顺序。这种先进行空间注意力再进行时间注意力的方式就是时空分离注意力。 这种时空分离注意力的UNet可以应用在可变序列长度上这种时空分离注意力的方式有一个好处是可以对视频和图片生成进行联合建模训练。就是说可以在每个视频的最后一帧后面添加随机的多张图片然后通过掩码的方式来将视频以及各图片进行隔离从而让视频和图片生成能够联合训练起来。 但是这个机制其实比较弱只能生成一些非常简单的画面。 近期有两篇论文值得一提一个是Diffusion over Diffusion这篇论文的定位是关于生成长视频的思考。Diffusion over Diffusion主要解决的问题是长视频之间前后关联的问题。之前的视频基本都是自回归的架构生成得比较慢因为它是串行的。 它的特点是什么它为什么要Diffusion over Diffusion因为它是一种分层结构的扩散模型通过一层层扩散生成视频。 Diffusion over Diffusion的视频生成过程是一个“从粗到细”的视频生成过程先通过在全局扩散模型Global Diffusion中输入文字来生成整个时间范围内的关键帧然后在局部扩散模型Local Diffusion中输入文字和上一层Diffusion生成的两张图片递归地生成填充附近帧之间的内容最终生成长视频。 这种分层结构的设计使模型能够直接在长视频上进行训练不仅消除了视频生成领域中训练短视频与推理长视频之间差距也确保了视频情节的连续性同时也能极大的提升了生成效率。 通过官网的演示资料可以看到它下面写的是一个prompt演讲根据prompt生成一个稍微长一点的视频内容。在prompt换了之后它又能生成一个稍微更长点的、更多样化的内容。这就是它的演示结果。 下面这篇论文的名字叫Any-to-Any这是一篇综合图像、语音、视频和文本的多模态论文。其中Any to any的含义是你能将上述模态数据进行任意组合的输入得到任意组合的输出。例如输入的时候可以根据图片、文本、声音最后生成一个带语音的视频。 这篇论文提出了模型可组合扩散Composable DiffusionCoDi这是第一个能够同时处理和生成任意组合模态的模型。它具体是怎么做的 首先这篇论文为了对齐不同模态之间的特征设计了Bridging Alignment特征桥接对齐方式采用CLIP为基准冻结CLIP文本编码器权重再使用对比学习在文本-音频、文本-视频数据集上进行训练使得音频、视频编码器提取的特征能对齐CLIP预训练模型中文本编码器提取的文本特征。 第二步为每种模态例如文本、图像、视频和音频训练一个潜变扩散模型Latent Diffusion ModelLDM。这些模型可以独立并行训练利用广泛可用的特定模态训练数据即具有一个或多个模态作为输入和一个模态作为输出的数据确保出色的单模态生成质量。 最后通过为每个扩散器添加交叉注意力模块和一个环境编码器V来实现的将不同LDM的潜变量投影到共享的潜空间。之后再固定LDM的参数只训练交叉注意力参数和V。由于不同模态的环境编码器是对齐的LDM可以通过插值表示的V与任何组合的共同生成模态进行交叉注意力。这使得CoDi能够无缝地生成任何模态组合而无需对所有可能的生成组合进行训练。 官网的演示很震撼。例如这三个是带有声音的视频。 这三个分别是文本、图片、下雨的声音。这三个结合起来就生成了一个泰迪熊在雨中过街的画面。网上有一些评论说这篇论文真正运用的时候差距很大因为多模态需要大量的数据支持才可能做好。它还是学术级离跨越鸿沟还有很远的距离。 -04- 未来音视频创新机会在哪 我接下来的思考是未来音视频AIGC成熟且能大规模应用在什么时候 这个图摘自红杉的报告。红色部分属于很不成熟的黄色部分属于正在发展的绿色部分就是成熟的。在这个预测里可以看到文本和code在2023年能够做到很成熟但是图片可能要到25年才能做到非常可控、可产品化3D和视频预测要到2030年才能成熟。 不管是应用还是论文基本上都是基于Diffusion的改良甚至很多模型都是基于Diffusion模型的一种扩散今天的很多更高级的视频、3D的生成框架也离不开扩散。如果某天视频真的要参与化的时候是不是需要有一种更原生的底层逻辑的突破、比扩散还高一个维度的突破才能做到但是今天我们基于已有的技术加上一些工程化的努力我相信应该可以做很多东西了。 关于音视频的应用如果和行业数据相关我认为用好开源加上一些工程上的产品级创新再结合大模型把向量工程、提示工程做好基本就能解决大量的需求了。 -05- 关于PPIO边缘云 最后介绍一下我们的PPIO边缘云。PPIO 于 2018年由 PPTV 创始人姚欣和我联合创立作为中国领先的独立边缘云服务提供商PPIO在全国30多个省超过1000多个县市及区域为客户提供符合低时延、高带宽、海量数据分布处理需求的边缘云计算服务和解决方案。 PPIO的核心是以算力为本。这个图是运营商的骨干图能够帮助理解边缘带宽。图中拿移动来举例我们覆盖的范围并不是很大很多而是相对分散的一些节点但是这种节点的SOA也是可保证的。 从城域网的角度看备用节点覆盖在BRAS这一层甚至会放置在MEC。 把算力资源放下后就能做一些边缘的推理服务。我们可以提供基于裸金属和GPU容器的的服务同时也能提供上面调度的逻辑。另外我们还可以支持推理加速的框架例如Oneflow、AITemplate、TensorRT等。 基于 PPIO 在边缘算力上的优势我们构建了专门适用于 AI 推理场景的架构。它主要包含三个层面的服务裸金属容器推理网关。 • 裸金属服务主要适用于大模型的场景例如一个大语言模型的推理服务需要占用 4~10 张显卡甚至要多机联合推理的情形。客户可以直接通过 IaaS 控制台或 OpenAPI 来申请、启动、停止和释放裸金属机。 • 容器服务主要适用于可以灵活调度的场景一般这类模型相对较小一个推理服务实例只需要 1 张左右显卡例如 StableDiffusion 的推理。容器服务实例由 PPIO k8sEdge 系统管理该系统保持与原生 k8s 兼容可以满足客户按需弹性调度的需求。 • 推理网关服务是上层用户请求层的智能调度服务它可以根据后端推理实例的负载情况动态地将用户的请求调度到最合适的实例上并且它支持客户设置个性化的调度策略。另外当部分节点或实例故障时该网关也可以智能地将其剔除避免用户请求打到该实例上对于已经调度到这些实例上的请求网关将自动将这些请求重新转发到其他健康实例上去处理整个过程对于请求方完全无感。 此外在服务客户的过程中我们发现有些时候显卡在接受较大的用户请求时偶尔会出现显存不足的情况。比如 在 3090 24G 上刚好有一个模型要跑 30G 多一些怎么办这时候很容易想到将一部分内存来“充当”那显存使用临时性地将显存的内容搬运到内存里当这些显存的内容需要被访问时再搬回去这样可以让上层的应用勉强能跑起来。为此我们基于 Nvidia 的 Unifed Memory 和 Cuda 劫持技术构建了用户态的虚拟 GPU实现了这一功能。该项技术使得推理服务在处理用户的较大请求过程中显存的问题得到了极大的缓解。但是该技术也会使得显存和内存之间的 swap 操作变多从而影响性能因此在对性能有较高要求的场景不建议设置太大的虚拟显存。 我们也有基于 Stable Diffusion WebUI 的一些应用采用界面和算力分离的架构不用 GPU不用安装 WebUI入门门槛低也容易整合到用户自有的工作流中。用户也不用下载和维护模型一方面我们已经集成了很多模型了另一方面用户还可以添加自己的模型。 我们还提供了基于 Stable Diffusion 的 AI 图片生成和图片编辑的 API 平台基本上从工程阶段已经做到了快、便宜同样也能够支持各种模型也能实现 文生图图生图ControlNetUpscalingInpaintingOutpainting抠图和擦除等系列功能可以满足游戏素材生成电商图片的修改等场景。 另外我们也针对一些场景实现了主体固定的解决方案就是能生成一系列图片但保持主体不变、背景变换特别适合当前流行的儿童插画小说配图生成等场景。 最后我最近经常也在思考我们人类为什么有智能。再看看 AI 的高速发展距离我们人类越来越近了现在AI的原理越来越和我们的大脑近似也是类似的矩阵、向量的计算所以我顿时感觉人类的智慧没有想象中那么伟大。 或者再过十年计算机超越人类是完全有可能的。而我们作为音视频行业从业者需要积极拥抱新的技术创造更大的价值。 LiveVideoStackCon是每个多媒体技术人的舞台如果您在团队、公司中独当一面在某一领域或技术拥有多年实践并热衷于技术交流欢迎申请成为LiveVideoStackCon的出品人/讲师。 扫描下方二维码可查看讲师申请条件、讲师福利等信息。提交页面中的表单完成讲师申请。大会组委会将尽快对您的信息进行审核并与符合条件的优秀候选人进行沟通。 扫描上方二维码 填写讲师申请表单