建设网站图片素材,前端培训机构,个人设计网站论文摘要,网站登录页一般做多大尺寸我们知道#xff0c;Meta为了给AR眼镜打造智能助手#xff0c;专门开发了第一人称视觉模型和数据集。与此同时#xff0c;该公司也在探索一种将视觉和语音融合的AI感知方案。相比于单纯的语音助手#xff0c;同时结合视觉和声音数据来感知环境#xff0c;可进一步增强智能…我们知道Meta为了给AR眼镜打造智能助手专门开发了第一人称视觉模型和数据集。与此同时该公司也在探索一种将视觉和语音融合的AI感知方案。相比于单纯的语音助手同时结合视觉和声音数据来感知环境可进一步增强智能助手的能力比如模拟人类感知世界的方式来理解声音在空间的传播方式。Meta表示在元宇宙社交、AR观影等多种场景中声音都扮演了重要的角色。为了满足沉浸式AR/VR场景的需求Meta决定采用AI来实现高保真的音质并与沉浸的空间逼真匹配。https://v.qq.com/txp/iframe/player.html?vidj3345qptjox为此Meta AI科研人员和Reality Labs音频专家、德克萨斯大学奥斯汀分校科研人员合作开发了三个专为AR/VR打造的声音合成AI模型Visual Acoustic Matching Model视听匹配模型、Visually-Informed Dereverberation基于视觉信息的抗混响模型、VisualVoice利用视听提示将对话和背景音区分。它们特点是可对视频中人类对话和声音进行视听理解并与3D空间定位进行匹配实现沉浸的空间音频效果。简单来讲这种AI模型根据外观和声音来理解物理环境。我们知道声音在不同的物理空间中听起来也会有不同比如在山洞里你会听到自己说话的回声而在音乐厅和客厅两种不同规模的空间中声音传播效果也不相同。这是因为声音传播路径受到空间结构、材料和表面纹理、距离等因素影响因此听起来会有所不同。一Visual Acoustic Matching Model视听匹配模型在这个模型中输入在任何场景录制的音频片段以及一张目标场景的图像便可以将录音片段与目标场景融合音频听起来就像是在目标场景中录制的那样。比如可以将洞穴中录制的音频与餐厅图像融合输出的语音听起来就会像在餐厅中录制的那样。通常在看一段视频时如果视频的声音和视觉不匹配不符合传统认知会造成不自然的体验人可以轻易发现这种差异并认为视频声音为后期配音。利用声音模型科研人员可模拟声音在房间中传播产生的脉冲来重现空间的声学效果。但这种方式需要结合空间3D网格来测定空间的几何结构、材料属性。在大多数情况下这些信息并不是已知的因此声学模型难以实现。科研人员指出也可以根据在特定空间中捕捉的音频通过声音在目标空间中产生的混响来预测声学特性但缺点是智能获得有限的声音信息因此模拟效果通常不够好。为了解决上述问题Meta科研人员创建了一个名为AViTAR的自监督视听匹配模型特点是可通过调整音频来与目标图像中的空间匹配。AViTAR是一个交叉感知模式转化模型它可以通过复合模式推理将输入的视听数据转化成视觉和听觉匹配的高保真数据。此外AViTAR模型可利用任意网络视频来进行自我监督训练练习匹配声音和图像。Meta为AViTAR创建了两个数据集其中一个建立在开源AI视听平台SoundSpaces基础上另一个数据集包含了29万个公开可用的英语对话视频3到10秒片段。据悉SoundSpaces是Meta在2020年开源的AI平台其特点是建立在虚拟仿真平台AI Habitat之上可模拟高保真、逼真的声源并插入到Replica、Matterport3D等开源的真实场景扫描环境中。这两个数据集主要包含了室内场景中的对话目的是为了探索未来AI语音和视觉助手在室内的应用场景。细节方案数据集中的视频拍摄也有要求麦克风和摄像头在同一个位置并且远离声源。为了训练AI模型识别声音和场景不匹配Meta科研人员还制作了一系列音画不匹配的随机合成视频并加入噪声。利用这些数据科研人员验证了视听匹配模型的效果结果发现该模型可成功将对话与目标图像场景融合效果比传统的纯音频声学匹配方案更好。二Visually-Informed Dereverberation基于视觉信息的抗混响模型和上一个模型相反Visually-Informed DereverberationVIDA专注于消除混响比如去除声音在洞穴中传播产生的回声。该模型根据视听提示来优化、筛选音频中的混响。在热闹的火车站场景中该模型可以提取小提琴演奏的声音并去除小提琴声与火车站场景交互而产生的回响好处是可以让小提琴声音听起来更纯粹。在AR场景重现时更沉浸、纯粹的声音可以让第一人称观看体验更加保真。我们知道回声指的是声源发出声波并到达场景中各表面后反射的现象。将回声、环境音、原声等声音混合并依次进入人耳的过程则被视为混响。混响、回声通常会降低音频质量降低人耳感知和分辨声音的能力。比如当你在大课堂给老师录音时通常也会将同学产生的噪音收录进去。这种混响也会影响语音识别的准确性。去除混响后便可以增强声音的重点帮助自然语言模型更好的识别对话并生成更准确的字幕。此前人们通常直接处理音频来消除混响但这并没有考虑到环境的完整声学特性。为了提升消混响的效果、更自然增强音频Meta科研人员提出了搭配视觉分析的方案VIDA也就是说利用视觉数据来辅助混响消除。VIDA模型基于视听数据来训练可通过识别空间结构、材质和扬声器等线索来消除混响。三VisualVoice利用视听提示将对话和背景音区分VisualVoice模型利用视听提示来区分对话和背景音其好处是可以帮助人和AI更好的听清对话从而提升多人VR社交的沟通效率、实时字幕效果等等。Meta设想了一个未来场景即人们通过AR眼镜以第一人称视角重温沉浸的全息回忆并获得保真的视觉和声音体验。或是在VR游戏中空间音频可进一步增强沉浸感。这个模型同时通过视听数据来分析对话Meta认为这项技术是改善人机感知的重要因素。Meta指出在复杂环境中人类可以比AI更好的理解对话这是因为人不止会用耳朵听也会用眼睛辅助。举个例子当你周围有人说话时你可以用耳朵听到他的声音和声音来源同时也可以用眼睛来定位这个说话人的具体位置。因此Meta AI决定开发一个同时模拟视觉和听觉感知的多模式对话模型帮助AI更好的分析视觉和语音之间的细微关联。即使使用未标记的视频也能训练VisualVoice模型提取对话中的视听信息。未来应用场景Meta表示利用这些智能的AI语音分割模型未来虚拟助手可以随时随地听到你的指令不管是在音乐会、热闹的聚会还是其他环境音量大的场景。接下来若想要为AR/VR构建更加沉浸的体验将需要这种多模式的AI模型才能模拟人类感知的方式通过音频、视频、文本等信号来更好的理解周围环境。为了继续优化AViTAR、VITA等模型Meta未来将使用视频来训练AI捕捉空间声学特性。参考fb