织梦网站调整,做服装广告素材网站有哪些,在百度上做购物网站,网站开站备案使用wav2vec 2.0进行音位分类任务的研究总结 原文名称#xff1a; Using wav2vec 2.0 for phonetic classification tasks: methodological aspects 研究背景
自监督学习在语音中的应用
自监督学习在自动语音识别任务中表现出色#xff0c;例如说话人识别和验证。变换器模型…使用wav2vec 2.0进行音位分类任务的研究总结 原文名称 Using wav2vec 2.0 for phonetic classification tasks: methodological aspects 研究背景
自监督学习在语音中的应用
自监督学习在自动语音识别任务中表现出色例如说话人识别和验证。变换器模型如wav2vec 2.0在处理几秒钟的语音序列时考虑上下文信息。研究问题从单个音素提取的向量表示是否比从较长序列中提取的向量表示在检测鼻音方面表现更好
研究方法
序列长度对比
方法一在音素持续时间内提取向量。方法二在音素两侧各增加一秒然后恢复中央部分。
数据资源与实验设置
训练和测试资源
训练数据
使用四个不同的语料库NCCFr、ESTER、PTSVOX 和 BREF。提取8个元音和6个鼻音及口音辅音总计120,000个训练样本。
测试数据 :
测试数据包括声学和生理数据通过Aeromask面罩同时收集。六名男性法语母语者参与录音记录了269个声音样本。
实验协议
方法论
wav2vec 2.0 模型
使用预训练的“wav2vec 2.0-FR-3K-large-LeBenchmark”模型。输入为原始音频信号通过卷积编码器处理每25毫秒转换成一个向量序列。Transformer层捕捉整个序列的信息包含24层每层产生1,024维的潜在表示。
向量表示生成
方法一直接从音素边界提取向量使用最大池化策略。方法二添加前后各一秒的上下文信息再从中提取中央部分的向量。
特征探测
使用逻辑回归模型判断音素是否有鼻音特征。在训练和验证数据集上训练模型然后应用于测试数据。
结果
鼻音检测性能
不同Transformer层的表现
长序列在几乎所有层中都包含鼻音信息而短序列在CNN编码器和前几层中鼻音特征更明显。第一层Transformer层在长序列中表现最佳整体准确率为94.05%短序列为81.04%。
音素分类准确性
某些音素如[˜O,E,m,n,d]分类准确率高而其他音素如[o,a]分类困难。鼻音元音中[˜E]最难检测[˜O]最容易检测。
分类器结果与生理数据比较
相关性分析
使用Pearson相关系数分析鼻音概率与鼻气流的关系。归一化后的鼻气流与鼻音概率的相关性更强且因音素和说话人不同而异。对于某些说话人鼻气流可以解释错误分类的原因。
总体而言鼻音概率与按音素和说话人归一化的值最密切相关。这表明鼻腔气流是音素和说话人特有的。其次说话人MT04的相关性最强这一观察结果对两个模型都是常见的。然而具有最低相关性的说话人根据音频片段长度和鼻腔气流测量而不同。 讨论与结论
序列长度对鼻音检测的影响
长序列在鼻音检测中表现优于短序列整体准确率更高。模型行为因音素和说话人而异反映了发音器官位置的变化。
生理数据的验证
鼻气流与鼻音概率之间存在显著相关性验证了模型的有效性。长序列更好地捕捉了音素相关的鼻音特征和音素间的音系对比。
局限与未来研究
尽管鼻气流减少某些鼻音仍可感知需要进一步的感知研究来验证模型结果。未来研究将关注更多情境下的鼻音检测并探索感知层面的验证。