百度网站做防水补漏,体育网站建设的分析,源码网站违法吗,兴县做网站公司文 | 智能相对论
作者 | 陈泊丞
这是春晚舞台西安分会场《山河诗长安》的一幕#xff1a;“李白”现世#xff0c;带领观众齐颂《将进酒》#xff0c;将中国人骨子里的豪情与浪漫演绎得淋漓尽致。 这又是浙江义乌商品市场里的另一幕#xff1a;只会说几个英文单词的女老板…文 | 智能相对论
作者 | 陈泊丞
这是春晚舞台西安分会场《山河诗长安》的一幕“李白”现世带领观众齐颂《将进酒》将中国人骨子里的豪情与浪漫演绎得淋漓尽致。 这又是浙江义乌商品市场里的另一幕只会说几个英文单词的女老板秒变外语达人无缝切换36国语言流畅介绍自家商品疯狂带货。 这一幕幕不可思议的画面成就了今天中国文化、商业的频频出圈。而一切的背后都有着相同的支持AI技术赋能数字内容生产和应用。
近年来随着AI大模型技术的持续升级与赋能数字内容生产与应用的趋势愈发强烈现实场景与数字内容不断融合悄然改变着整个内容创作行业的格局甚至进一步推动了相关产业和商业的新变革。
技术创新重塑数字内容生产与应用新范式
数字人“李白”的精彩演绎、义乌女老板的AI带货——这些热门事件的背后是技术创新突破所带来的结果。AI大模型的成熟应用让越来越多不同形式的数字内容得以爆发并广泛进入大众视野。
在6月21日举办的华为开发者大会HDC 2024上华为云盘古大模型迎来5.0版本升级其中盘古媒体大模型在语音生成、视频生成以及AI翻译上的技术创新就重塑了数字内容生产和应用的新范式。 对比过去的技术能力新的技术所带来的效果是非常显著的。
一、语音生成进阶只需三言两语沉浸式、真实感的语音易如反掌
过去的语音生成依赖传统的声音克隆模型由于模型比较小精度低等原因往往在实际操作上就要复杂得多。比如在数据收集阶段对目标人物的语音数据就要尽可能的多样化包括不同的语速、语调、音量以及不同语境下的语音需用到几百句话的录音。
然后到了预处理阶段需要对收集到的语音数据进行清洗通过人工标注等形式去除噪声、静音片段和其他不需要的部分。进而还要进行语音分割将连续的语音信号切割成较小的语音片段如音素或单词。最后提取音频特征再用于后续的声音建模。
以上还只是数据收集和预处理尚未进入真正的语音生成阶段。但其中的工作量和操作复杂度就已经很大了对语音生成的效率和质量都是一个非常大的影响和挑战。
时至今日随着技术的创新基于更先进的模型比如盘古媒体大模型的语音生成能力这一问题得到了很好的解决。只需要几句话、几秒钟的声音AI即可学习到个性化的音色、语调、表达韵律从而获得高质量的个性化语音。同时还支持喜怒哀乐等拟人情感语音闲聊、新闻、直播等10多种语气风格让生成的语音更真实、更有情感色彩能沉浸式地应用到不同场景中。
比如在视频译制中AI将能做到配音演员的专业程度——通过盘古媒体大模型提供的视频翻译能力AI可以把视频翻译为目标语言并保留原始角色的音色、情感、语气。华为云也在积极联合伙伴逻辑智能打造高感情语音克隆以及14国小语种配音共同构建高感情超拟人多模态音频应用能力等。同时再结合盘古媒体大模型的口型驱动模型还可以实现音唇同步尤其是在侧面、多人对话、物体遮挡以及人物移动等场景也能做到很好的口型匹配。
二、视频生成跨越只需几十张图可控的、一致的视频唾手可得
传统的视频生成技术在资源需求、数据集、时序一致性、物理定律遵守、效率与质量平衡、可控性、逼真度和连贯性以及应用限制等方面都存在一定的局限性。如今基于盘古媒体大模型只需要训练几十张特定美学风格的图片如吉卜利、二次元等风格再输入实拍视频即可快速生成该风格的动漫视频。
除了按需时长生成稳定的动漫视频再通过ID一致性模型还能对生成画面中的关键角色进行一致性处理确保视频中角色样貌特征在前一帧和后一帧中所呈现的效果始终一致在侧脸、运动轨迹下的视觉效果合理一致由此增强AI视频生成的可控性、一致性让视频内容更合理、真实。
此外业内对视频生成的真实度、复杂度也在聚焦增强。比如OpenAI的Sora正在试图模拟复杂的摄像机运镜同时准确地保持角色和视觉风格一致让AI创作的数字内容更加趋于现实创作。英伟达更是发布了一系列技术套件如ACENVIDIA Avatar Cloud Engine、NeMo™以及RTX™等去增强数字内容的真实感让数字人物的互动、对话更加复杂、逼真。 三、AI翻译强化准确性93%实时的、跨语言沟通指日可待
过去的机器翻译系统往往是基于统计模型或规则模型构建的因此翻译结果大多无法与原文一致显得生硬、不自然并不具备应用到不同场景的条件。现如今华为云通过AI实现多语种实时传译准确性93%可应用于实时通话、云会议等需要实时翻译场景。
同时基于盘古媒体大模型的语音复刻、AI文字翻译以及TTS技术便可以实现语音的同声传译成功实现跨语言母语沟通体验。甚至还可以结合数字人技术让数字人来模拟用户说话结合口型模型技术做到口型与声音精准匹配让AI翻译、数字人与语音生成高度结合用于线上开会、跨国贸易交流等场景中。
技术的“瓶颈”在收缩
技术的创新和突破带来了数字内容生产和应用的爆发但另一方面随着生产和应用的进程加速相应的技术瓶颈也在出现并不断收缩、聚焦。目前AI大模型在数字内容生产和应用上的问题主要呈现在三个层面。
其一能源与计算效率瓶颈。当前大模型训练的算力当量还在进一步增大从GPT-3到GPT-4算力当量增长了68倍。随着训练的token数、模型参数增加大模型训练所需的计算量也需要随之增加。
更重要的是其背后的成本投入是难以为继的。根据计算训练一个5000亿参数规模的Dense模型基础算力设施投入约10亿美金无故障运行21个月电费约5.3亿元——这远远超出了企业的承受范围。
但是如果想要规模化地生产高质量的数字内容大模型的精进又是必要的路径。在这个阶段业内开始寻求更高效、更优的算力解决方案。像华为云昇腾AI云服务就在致力于提供方便、好用的算力服务在算力层面不断革新计算能力和计算效率提供从云化算力、模型开发、模型托管到生态的全栈服务。
其二算法架构的优化挑战。随着大模型参数的增加想要实现更好的计算结果和输出更优的答案那么其处理的时长就会不断延长的。但是这在实际应用中是一个困扰数字内容生产和应用的显著问题非常不利于数字内容的规模化、商业化发展。
由此业内也开始在算法架构上进行优化调整计算逻辑、处理方法来实现更优效果。其中以稀疏激活机制为代表的MoE模型就是目前AI行业的一个焦点类似于“术业有专攻”的理念稀疏激活机制通过对数据任务进行拆解分门别类再分配给特定的“专家”Experts进行处理最终综合加权输出——不仅实现了计算效率优化也让输出结果更加全面、强大。
其三安全与伦理问题。大模型内部运行机制复杂生产出来的内容欠缺可解释性和可控性又易受对抗样本攻击存在监管难题和安全漏洞。对此在数字内容生产和应用中相关的安全和伦理问题随着行业的广泛发展而日趋突显。
因此在数字内容行业高速发展的阶段尽管企业能吃上数字内容的红利但也需要鉴别模型的安全性、可靠性避免因模型的安全和伦理问题而引发负面舆论影响。在这样的挑战下华为云盘古大模型也随即作出升级在数据治理、安全合规等方面达到了较高标准。
以技术“造梦”数字内容未来可期
新范式的明确带来更明确的技术方向对于整个数字内容行业而言这意味着未来的发展已经有了基础的雏形前景仍是乐观的。但是不可忽视的是技术的瓶颈客观存在且更加突出摆在行业面前的依旧是一条较为严峻的发展之路。
尽管抛开技术瓶颈不谈在具体的实践中数字内容的生产和应用也不简单往往都需要面对很多在技术之外的具像化问题只有基于问题去一步步解决才能最终完成落地。
华为云团队在进行纪录片译制时就发现项目实际开展起来会遇到各种各样的问题比如环境声音太杂太乱AI无法准确识别人声保证音译的完整度或是随着场景的切换人物的状态、口型都呈现出不同的样子需要AI精准地匹配等等。
如果这些问题不一一解决AI译制的效果就打了个大大的折扣。对此华为云团队通过精准分析问题采用不同的技术去解决各类细微问题比如通过分离模型技术让环境声和人声分开通过口型模型技术让声音与口型精准匹配等。
技术或许一直都有但是如何用恰恰才是项目落地的关键。换句话说在今天数字内容行业高速发展、技术创新加速迭代的阶段只有实践了才能真正推动行业的发展。这是一个比拼项目的阶段谁家的项目经验越丰富越能知道相关的技术应该如何应用才能发挥出应有的效果。
目前中影集团与华为云合作将媒体大模型应用到影视工业共同打造影视译制大模型通过AI将视频译制成不同语言并保留原始角色的音色、情感、语气还能支持口型匹配为影片译制提供全新的AI制作方式。
今天数字内容迎来迸发越来越多精彩内容面世的另一面恰恰是厂商们不断运用技术、验证技术、完善技术的过程。未来的项目之路任重而道远同时也是行业走向成熟的必经之路。静待技术在创新中、实践中持续升级、完善未来便更快能看到一个数字内容精彩纷呈如同梦境一般的世界。
*本文图片均来源于网络
此内容为【智能相对论】原创
仅代表个人观点未经授权任何人不得以任何方式使用包括转载、摘编、复制或建立镜像。
部分图片来自网络且未核实版权归属不作为商业用途如有侵犯请作者与我们联系。
•AI产业新媒体;
•澎湃新闻科技榜单月度top5;
•文章长期“霸占”钛媒体热门文章排行榜TOP10;
•著有《人工智能 十万个为什么》
•【重点关注领域】智能家电含白电、黑电、智能手机、无人机等AIoT设备、智能驾驶、AI医疗、机器人、物联网、AI金融、AI教育、AR/VR、云计算、开发者以及背后的芯片、算法等。