当前位置: 首页 > news >正文

网站源码 预览网站生成小程序

网站源码 预览,网站生成小程序,石家庄网站建设教程,html网页制作下载2016-ACCV-Out of time: automated lip sync in the wild 摘要1. 引言1.1 相关作品 2. 表示和架构2.1 音频流2.2 视觉流2.3 损失函数2.4 训练 3. 数据集3.1 编制训练数据 4. 实验4.1 确定口型同步误差4.2 应用#xff1a;主动说话人检测4.3 应用#xff1a;唇读 5. 结论参考文… 2016-ACCV-Out of time: automated lip sync in the wild 摘要1. 引言1.1 相关作品 2. 表示和架构2.1 音频流2.2 视觉流2.3 损失函数2.4 训练 3. 数据集3.1 编制训练数据 4. 实验4.1 确定口型同步误差4.2 应用主动说话人检测4.3 应用唇读 5. 结论参考文献 作者Joon Son Chung and Andrew Zisserman 单位Visual Geometry Group, Department of Engineering Science, University of Oxford 论文地址https://link.springer.com/chapter/10.1007/978-3-319-54427-4_19 摘要 这项工作的目标是确定视频中嘴部运动和语音之间的音频视频同步。 我们提出了一种双流 ConvNet 架构该架构能够从未标记的数据中端到端地训练声音和嘴部图像之间的映射。经过训练的网络用于确定视频中的唇同步误差。 我们将网络应用于另外两个任务主动说话人检测和唇读。在这两项任务上我们都在标准基准数据集上创下了新纪录。 1. 引言 音频与视频同步或缺乏同步是电视广播中制作人和观众面临的一个问题。在电视中长达几百毫秒的口型同步错误并不罕见。如果错误的原因在于传输则视频通常会滞后于音频。这些错误通常很明显——普通观众可以察觉到的阈值约为 -125ms音频滞后于视频到 45ms音频领先于视频[1]。 在电影制作中音频与视频同步是一项常规任务因为音频和视频通常使用不同的设备录制。因此该行业已经开发出许多解决方案其中场记板是最传统的解决方案。现代解决方案使用时间码或有时在摄像机内置麦克风和外部麦克风的音频之间进行时间扭曲但使用视觉内容作为对齐指南并不常见。 我们在本研究中的目标是开发一种独立于语言和说话者的口型同步问题解决方案仅使用电视观众可用的视频和音频流。关键贡献是 ConvNet 架构和数据处理管道该管道使声音和口型之间的映射能够从电视广播中辨别性地学习而无需标记数据。据我们所知我们是第一个端到端训练有效的 AV 同步系统的人。 该解决方案与许多不同的应用相关。我们证明该方法可应用于三个不同的任务i确定视频中的口型同步误差ii在有多张脸的场景中检测说话者iii唇读。所有这些任务的实验性能都非常强大。在说话者检测和唇读方面我们的结果超过了公共数据集 Columbia [4] 和 OuluVS2 [2] 上的最新成果。 1.1 相关作品 关于音频到视频同步问题的研究工作量很大。其中大部分是基于电视接收器无法使用的方法例如在传输流中嵌入时间戳相反我们专注于仅依赖视听数据的计算机视觉方法。 许多论文已将音素识别用作解决口型同步问题的代理任务。在 Lewis et al. 的论文 [15] 中使用线性预测从音频中提供音素识别并将识别出的音素与嘴部位置相关联以提供口型同步视频。Morishima et al. 的论文 [19] 将面部参数分类为视素并使用视素到音素的映射来实现同步。虽然 [13] 和 [18] 没有明确将声音分类为音素但他们的方法与上述方法类似都是通过让说话者记录一组元音来开发模型。 [13] 和 [18] 都将面部参数例如下颌位置与声音信号的 FFT 相关联。Zoric and Pandzic [29] 使用神经网络来解决这个问题。训练多层前馈神经网络以根据 MFCC 输入向量预测视位。使用参数化面部模型进行视觉处理。我们不会对声音和嘴形进行中间分类将其分为元音或音素。 最近的论文尝试在没有此类标签的情况下找到语音和视觉数据之间的对应关系。许多方法都基于音频和视觉特征例如几何参数或 2D DCT 特征的典型相关分析CCA[3, 22] 或协惯性分析CoIA[20]。与我们最相关的工作是 Marcharet et al. 的工作。[17] 他们使用基于深度神经网络DNN的分类器来确定时间偏移同时还基于预定义的视觉特征语音类别可能性、瓶颈特征等而我们直接学习视觉特征。 与本文开发的架构相关的是 Siamese 网络 [6]其中学习相似性度量以进行人脸分类而无需明确的类标签。[23, 27] 也具有相关性因为它们同时训练输入来自不同域的多流网络。 2. 表示和架构 本节介绍音频和视频输入的表示和网络架构。网络会提取每种数据类型的 0.2 秒片段。在数据集第 3 节中没有为音频视频数据提供明确的注释例如音素标签或精确的时间偏移但我们假设在电视广播中音频和视频通常是同步的。 网络由两个非对称音频和视频流组成下面将分别介绍它们。 2.1 音频流 输入音频数据是 MFCC 值。这是声音在非线性梅尔频率尺度上的短期功率谱表示。每个时间步长使用 13 个梅尔频带。特征以 100Hz 的采样率计算为 0.2 秒的输入信号提供 20 个时间步长。 Representation。音频被编码为热图表示每个时间步长和每个梅尔频带的 MFCC 值见图 1。图像的顶部和底部三行被反射以减少边界效应。先前的研究 [9] 也尝试训练图像风格的 ConvNet 以获得类似的输入。 Architecture。我们使用的卷积神经网络受到图像识别设计的启发。我们的层架构图 2基于 VGG-M [5]但修改了过滤器大小以接收不寻常尺寸的输入。VGG-M 拍摄大小为 224×224 像素的方形图像而我们的输入大小在时间方向上为 20 像素时间步长数在另一个方向上只有 13 像素因此输入图像为 13×20 像素。 **图 1. 输入表示**。左图音频热图的时间表示。音频图像中的 13 行A 到 M对 13 个 MFCC 特征中的每一个进行编码这些特征表示不同频率点的功率。右图嘴部区域的灰度图像。 图 2. 双流 ConvNet 架构。两个流同时进行训练。 2.2 视觉流 Representation。视觉网络的输入格式是一系列灰度图像形式的嘴部区域如图 1 所示。输入尺寸为 111 × 111 × 5 ( W × H × T ) 111\times 111\times 5\ \left(W\times H\times T\right) 111×111×5 (W×H×T)共 5 帧相当于 25Hz 帧速率下的 0.2 秒。 Architecture。我们的架构基于 [7] 的架构该架构专为视觉语音识别任务而设计。具体来说该架构基于 Early Fusion 模型该模型紧凑且训练速度快。conv1 过滤器已修改为接收 5 通道输入。 2.3 损失函数 训练目标是音频和视频网络的输出对于真实对是相似的对于虚假对是不同的。具体来说网络输出之间的欧几里得距离被最小化或最大化。我们建议使用对比损失公式 1最初是为训练 Siamese 网络 [6] 而提出的。 v v v 和 a a a 分别是视频和音频流的 f c 7 {fc}_7 fc7​ 向量。 y ∈ [ 0 , 1 ] y \in [0,\ 1] y∈[0, 1] 是音频和视频输入之间的二元相似性度量。 另一种方法是将这个问题作为分类问题同步/非同步或使用合成数据分为不同的偏移箱来解决但是我们无法使用此方法实现收敛。 2.4 训练 训练过程改编自单流 ConvNet [14, 24] 的常用过程并受到 [6, 23] 的启发。然而我们的网络不同因为它由不同的流、两组独立的参数和来自两个不同域的输入组成。网络权重是使用动量随机梯度下降来学习的。网络的两个流的参数是同时学习的。 Data augmentation。应用数据增强通常可以提高验证性能并减少 ConvNet 图像分类任务中的过度拟合 [14]。对于音频音量在 ±10% 的范围内随机改变。我们不会更改音频播放速度因为这可能会影响重要的时间信息。对于错误示例我们会随时间随机裁剪。对于视频我们应用 [14, 24] 在 ImageNet 分类任务中使用的标准增强方法例如随机裁剪、翻转、颜色偏移。对单个剪辑中的所有视频帧应用单个变换。 Details。我们的实现基于 MATLAB 工具箱 MatConvNet [26]并在具有 12GB 内存的 NVIDIA Titan X GPU 上进行训练。网络使用批量标准化进行训练 [10]。使用的学习率为 1 0 − 2 10^{-2} 10−2 到 1 0 − 4 10^{-4} 10−4这比通常用于训练批量标准化的 ConvNet 的学习率要慢。训练在 20 个 epoch 后停止或者当验证错误在 3 个 epoch 内没有改善时停止以较早者为准。 3. 数据集 在本节中我们描述了用于训练口型同步系统的自动生成大规模视听数据集的流程。使用所述方法我们从 BBC 视频中收集了数百小时的语音涵盖了数百名发言者。我们从 2013 年至 2016 年录制的 BBC 新闻节目开始图 3因为新闻中出现了大量不同的人而电视剧的演员阵容则固定不变。训练、验证和测试集按时间划分每组对应的视频日期如表 1 所示。 处理流程总结在图 4 中。流程的视觉部分基于 Chung 和 Zisserman [7] 使用的方法我们在此简要介绍该方法。首先通过比较连续帧的颜色直方图来确定镜头边界 [16]。然后对每一帧执行 [12] 中基于 HOG 的人脸检测方法并使用 KLT 跟踪器 [25] 对各帧的人脸检测进行分组。我们会丢弃视频中出现多张脸的任何剪辑因为在这种情况下无法识别说话者。 管道的音频部分很简单。梅尔频率倒谱系数MFCC[8] 特征用于描述音频这在语音识别系统中很常用。不对音频进行任何其他预处理。 表 1. 数据集统计数据记录日期、真实正和虚假口型同步音频视频训练样本的数量、脸部跟踪的小时数。 图 3. BBC 新闻视频的静态图像。 图 4. 生成视听数据集的管道。 3.1 编制训练数据 通过拍摄 5 帧视频片段和相应的音频片段来生成真实Genuine的音频-视频对。仅将音频随机移动最多 2 秒以生成合成的虚假音频-视频对。这在图 5 中进行了说明。我们从同一个剪辑中获取音频以便网络学习识别对齐方式而不是说话者。 Refining the training data。使用所提出的方法生成的训练数据很嘈杂因为它包含声音和嘴形不相关的视频例如配音视频或不同步。 网络最初在这些嘈杂的数据上进行训练并使用训练后的网络通过拒绝距离超过阈值的正对来丢弃训练集中的假阳性。然后对这些新数据重新训练网络。 Discussion。与一些基于音素识别的先前研究不同该方法不需要对训练数据进行注释。我们用音频-视频对进行训练这种方法的优点是可用数据量几乎是无限的而且获取数据的成本极低几乎任何从互联网上下载的语音视频都可用于训练。关键假设是我们下载的大多数视频都是大致同步的尽管有些视频可能存在口型同步错误。ConvNet 损失函数和训练通常可以容忍数据有些嘈杂。 图 5. 获取真、假音视频对的过程。 4. 实验 在本节中我们使用经过训练的网络来确定视频中的口型同步误差。每个流的 256 维 f c 7 {fc}_7 fc7​ 向量用作表示音频和视频的特征。为了获得信号之间的不相似性度量采用特征的欧几里得距离。这与训练时使用的距离函数相同。直方图图 6显示了度量的分布。 图 6. 使用单个 0.2 秒样本真实和虚假音频视频对的欧几里得距离分布。请注意这是在可能包含非说话者或配音视频片段的嘈杂验证数据上。 4.1 确定口型同步误差 为了找到音频和视频之间的时间偏移我们采用滑动窗口方法。对于每个样本计算一个 5 帧视频特征与 ±1 秒范围内的所有音频特征之间的距离。正确的偏移是当此距离最小时。但是如表 2 所示剪辑中的所有样本并非都具有区分性例如可能存在在特定时间没有任何内容的样本因此对每个剪辑进行多次采样然后取平均值。典型的响应图如图 8 所示。 Evaluation。音频和视频之间的精确时间偏移尚不清楚。因此评估是手动完成的如果人眼无法检测到口型同步误差则认为同步成功。我们从数据集中为测试保留的部分随机抽取了数百个剪辑样本如第 3 节所述。成功率报告在表 2 中。 我们还对韩语和日语视频样本进行了实验图 7以表明我们的方法适用于不同语言。定性结果非常好可从我们的研究页面获取。 Performance。数据准备流程和网络在中档笔记本电脑配备 NVIDIA GeForce GT 750M 显卡的 Apple MacBook Pro上的运行速度明显快于实时速度但人脸检测步骤外部应用程序除外其运行速度约为实时速度的 0.3 倍。 表 2. 人类可检测范围内的准确度。 图 7. 用于测试的韩国和日本视频图像。 图 8. 不同偏移值下音频和视频特征之间的平均距离在一段剪辑中取平均值。实际偏移位于波谷。此处显示的三个示例剪辑适用于不同的场景。左同步 AV 数据中音频领先于视频右音频和视频不相关。 4.2 应用主动说话人检测 AV 同步和主动说话人检测的问题密切相关因为必须建立视频和伴随音频之间的对应关系。因此可以扩展同步方法以确定存在多个面孔的场景中的说话人。我们将时间偏移同步误差的置信度得分定义为欧几里得距离的最小值和中值之间的差值例如图 8 中两个图的该值约为 6 到 7。在多主体场景中说话人的脸自然是音频和视频之间对应性最高的脸。非说话人的相关性应接近于零因此得分也很低。 与仅依赖嘴唇运动的单模态主动说话人检测方法不同我们的方法还可以检测到人正在说话但与音频不相关的情况例如在配音视频中。 Evaluation。我们使用数据集图 9和 Chakravarty 等人的评估协议测试我们的方法。[4]。目标是确定多主题场景中的说话者是谁。 数据集包含 6 位说话者其中 5 位Bell、Bollinger、Lieberman、Long、Sick用于测试。使用对剩余说话者Abbas的注释设置分数阈值该阈值位于 ROC 曲线与对角线相交的点相等错误率。 我们在表 3 中报告了 F1 分数。每个测试样本的分数在 10 帧或 100 帧窗口内取平均值。对于 100 帧窗口性能几乎完美。增加平均窗口大小的缺点是该方法无法检测到人说话时间很短的示例尽管在本例中这不是问题。 图 9. 来自哥伦比亚数据集的静态图像 [4]。 表 3. 哥伦比亚说话人检测的 F1 分数 [4] 的结果已从其论文的图 3b 数字化准确度约为 ±0.5%。 4.3 应用唇读 训练深度网络以完成任何任务都需要大量数据但对于唇读等问题收集大规模注释数据的成本可能高得令人望而却步。然而未标记的口语视频却丰富且易于获取。 同步网络的一个有用副产品是它能够在没有任何标记数据的情况下学习非常强大的口部描述符。我们利用这一结果在 OuluVS2 [2] 数据集上设置了新的最先进技术。这包括 52 个受试者说出相同的 10 个短语例如 “谢谢”、“你好” 等或 10 个预定的数字序列。它是在独立于说话者的实验中进行评估的其中保留 12 个指定受试者进行测试。仅使用视频流进行训练和测试即这是一个 “唇读” 实验而不是视听语音识别实验。 Experimental setup。本实验使用一个简单的单向 LSTM 分类器该分类器具有一层和 250 个隐藏单元。设置如图 10 所示。LSTM 网络提取 5 帧滑动窗口的视觉特征来自 ConvNet 的 f c 7 fc_7 fc7​ 激活每次移动 1 帧并在序列结束时返回分类结果。 Training details。我们对循环网络的实现基于 Caffe [11] 工具箱。网络使用随机梯度下降进行训练学习率为 1 0 − 3 10^{-3} 10−3。梯度在整个剪辑长度上反向传播。使用 Softmax 对数损失这是 n n n 向分类问题的典型特征。这里 n 10 n10 n10代表 10 个短语或数字序列。仅在最后的时间步计算损失。 Evaluation。我们将结果与该数据集上之前的最新成果进行比较同样使用相同的 LSTM 设置但使用在 ImageNet [21] 上预训练的 VGG-M [5] 卷积网络。我们在表 4 中报告了结果。特别值得注意的是我们的结果优于 [7] 的结果后者是使用在非常大的标记数据集上预训练的网络获得的。 图 10. 唇读实验的网络配置。ConvNet 权重在 LSTM 训练时不会更新。 表 4. OuluVS2 上的测试集分类准确率正面图。 5. 结论 我们已经证明可以训练双流 ConvNet从易于获取的自然语音视频中将音频与嘴部运动同步。此方法的一个有用应用是在媒体播放器中其中可以在运行时在本地机器上纠正口型同步错误。此外该方法可以扩展到任何问题只要它有助于学习不同域中相关数据之间的相似性度量。 我们还表明经过训练的网络可以有效地完成视频中的说话人检测和唇读任务。 致谢。我们非常感谢 Andrew Senior 提出这个问题感谢 BBC Research 的 Rob Cooper 和 Matt Haynes 帮助获取口型同步数据集感谢 Punarjay Chakravarty 和 Tinne Tuytelaars 提供哥伦比亚数据集。本研究的资金由 EPSRC 计划拨款 Seebibyte EP/M013774/1 提供。 参考文献 [1] Bt.1359 : Relative timing of sound and vision for broadcasting. ITU (1998) [2] Anina, I., Zhou, Z., Zhao, G., Pietik ̈ainen, M.: Ouluvs2: a multi-view au- diovisual database for non-rigid mouth motion analysis. In: Automatic Face and Gesture Recognition (FG), 2015 11th IEEE International Conference and Workshops on. vol. 1, pp. 1–5. IEEE (2015) [3] Bredin, H., Chollet, G.: Audiovisual speech synchrony measure: application to biometrics. EURASIP Journal on Applied Signal Processing 2007(1), 179–179 (2007) [4] Chakravarty, P., Tuytelaars, T.: Cross-modal supervision for learning active speaker detection in video. arXiv preprint arXiv:1603.08907 (2016) [5] Chatfield, K., Simonyan, K., Vedaldi, A., Zisserman, A.: Return of the devil in the details: Delving deep into convolutional nets. In: Proc. BMVC. (2014) [6] Chopra, S., Hadsell, R., LeCun, Y.: Learning a similarity metric discrimi- natively, with application to face verification. In: Proc. CVPR. vol. 1, pp. 539–546. IEEE (2005) [7] Chung, J.S., Zisserman, A.: Lip reading in the wild. In: Proc. ACCV (2016) [8] Davis, S.B., Mermelstein, P.: Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences. Acoustics, Speech and Signal Processing, IEEE Transactions on 28(4), 357–366 (1980) [9] Geras, K.J., Mohamed, A.r., Caruana, R., Urban, G., Wang, S., Aslan, O., Philipose, M., Richardson, M., Sutton, C.: Compressing lstms into cnns. arXiv preprint arXiv:1511.06433 (2015) [10] Ioffe, S., Szegedy, C.: Batch normalization: Accelerating deep network train-ing by reducing internal covariate shift. arXiv preprint arXiv:1502.03167 (2015) [11] Jia, Y.: Caffe: An open source convolutional architecture for fast feature embedding. http://caffe.berkeleyvision.org/ (2013) [12] King, D.E.: Dlib-ml: A machine learning toolkit. The Journal of Machine Learning Research 10, 1755–1758 (2009) [13] Koster, B.E., Rodman, R.D., Bitzer, D.: Automated lip-sync: Direct transla-tion of speech-sound to mouth-shape. In: Signals, Systems and Computers, 1994. 1994 Conference Record of the Twenty-Eighth Asilomar Conference on. vol. 1, pp. 583–586. IEEE (1994) [14] Krizhevsky, A., Sutskever, I., Hinton, G.E.: ImageNet classification with deep convolutional neural networks. In: NIPS. pp. 1106–1114 (2012) [15] Lewis, J.: Automated lip-sync: Background and techniques. The Journal of Visualization and Computer Animation 2(4), 118–122 (1991) [16] Lienhart, R.: Reliable transition detection in videos: A survey and practi- tioner’s guide. International Journal of Image and Graphics (Aug 2001) [17] Marcheret, E., Potamianos, G., Vopicka, J., Goel, V.: Detecting audio-visual synchrony using deep neural networks. In: Sixteenth Annual Conference of the International Speech Communication Association (2015) [18] McAllister, D.F., Rodman, R.D., Bitzer, D.L., Freeman, A.S.: Lip synchro- nization of speech. In: Audio-Visual Speech Processing: Computational Cognitive Science Approaches (1997) [19] Morishima, S., Ogata, S., Murai, K., Nakamura, S.: Audio-visual speech translation with automatic lip syncqronization and face tracking based on 3-d head model. In: Acoustics, Speech, and Signal Processing (ICASSP), 2002 IEEE International Conference on. vol. 2, pp. II–2117. IEEE (2002) [20] Ru ́a, E.A., Bredin, H., Mateo, C.G., Chollet, G., Jim ́enez, D.G.: Audio- visual speech asynchrony detection using co-inertia analysis and coupled hidden markov models. Pattern Analysis and Applications 12(3), 271–284 (2009) [21] Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., Huang, S., Karpathy, A., Khosla, A., Bernstein, M., Berg, A., Li, F.: Imagenet large scale visual recognition challenge. IJCV (2015) [22] Sargin, M.E., Yemez, Y., Erzin, E., Tekalp, A.M.: Audiovisual synchroniza- tion and fusion using canonical correlation analysis. IEEE Transactions on Multimedia 9(7), 1396–1403 (2007) [23] Simonyan, K., Zisserman, A.: Two-stream convolutional networks for action recognition in videos. In: NIPS (2014) [24] Simonyan, K., Zisserman, A.: Very deep convolutional networks for large- scale image recognition. In: International Conference on Learning Repre- sentations (2015) [25] Tomasi, C., Kanade, T.: Selecting and tracking features for image sequence analysis. Robotics and Automation (1992) [26] Vedaldi, A., Lenc, K.: Matconvnet – convolutional neural networks for mat- lab. CoRR abs/1412.4564 (2014) [27] Zhong, Y., Arandjelovi ́c, R., Zisserman, A.: Faces in places: Compound query retrieval. In: British Machine Vision Conference (2016) [28] Zhou, Z., Hong, X., Zhao, G., Pietik ̈ainen, M.: A compact representation of visual speech data using latent variables. IEEE transactions on pattern analysis and machine intelligence 36(1), 1–1 (2014) [29] Zoric, G., Pandzic, I.S.: A real-time lip sync system using a genetic algo- rithm for automatic neural network configuration. In: 2005 IEEE Interna- tional Conference on Multimedia and Expo. pp. 1366–1369. IEEE (2005)
http://www.dnsts.com.cn/news/99115.html

相关文章:

  • django 网站开发带后台的响应式网站
  • 儿童产品网站建设网站建设做网站需要多少钱
  • 建设银行泰州江洲路支行网站免费注册google账号
  • 天津品牌网站建设域名注册教程
  • 比较好的公文写作网站吉林网站建站系统哪家好
  • 广西住房建设部网站定制开发软件产品的税率
  • 北京建设网站 公司自己做的网站怎么传到空间啊
  • 文字排版都用哪些网站网站建设属于什么职位
  • 自己搭建个人网站网站开发如何引用函数
  • 怎么设计网站页面搭建网站一般要多少钱
  • 浙江省建设厅老网站外国小孩和大人做网站
  • 软件公司做网站wordpress 云共享
  • 怎么免费网做百度收录的网站吗宁波建设业协会网站
  • 58同城网站建设问题wordpress 获取头像
  • 厂房网行业门户网站建设策划方案pptseo整站优化吧
  • 重庆承越网站制作公司小程序制作怎么导入题库
  • 英文网站的外部链接 建设公司怎么建设网站首页
  • 山东小语种网站建设广告网站怎么做的
  • 在一个网站的各虚拟目录中默认文档的文件名要相同wordpress 删除仪表盘
  • 柳城网站设计网页设计与制作题库与答案
  • 做网站需要用什么语言wordpress论坛投票
  • python电商网站开发网站的主题有哪些
  • 网站哪里备案网站建设公司安丘市
  • 公司怎么建立自己网站网站首页设计图片简约
  • 南宁网站建设哪家公黄冈公司网站建设平台
  • 怎么去找做网站的长沙哪里学网站建设
  • 合肥市科技中心网站中国建筑招投标平台
  • 不备案的网站能上去吗新冠疫苗最新消息
  • 宝安做棋牌网站建设哪家技术好廊坊网页搜索排名提升
  • 揭阳专业网站设计公司神秘网站