述建设一个网站的具体步骤,网站项目案例,网站设计电商首页,产品发布会详细流程代码:https://github.com/jaywalnut310/vits 论文:https://arxiv.org/abs/2106.06103 文章目录 摘要1. 引言2. 方法2.1. 变分推理2.1.1. 概述2.1.2. 重构损失2.1.3. KL散度2.2. 对齐估计2.2.1. 单调对齐搜索2.2.2. 从文本预测时长2.3. 对抗训练2.4. 最终损失2.5. 模型架构2.5…代码:https://github.com/jaywalnut310/vits 论文:https://arxiv.org/abs/2106.06103 文章目录 摘要1. 引言2. 方法2.1. 变分推理2.1.1. 概述2.1.2. 重构损失2.1.3. KL散度 2.2. 对齐估计2.2.1. 单调对齐搜索2.2.2. 从文本预测时长 2.3. 对抗训练2.4. 最终损失2.5. 模型架构2.5.1. 后验编码器2.5.2. 先验编码器2.5.3. 解码器2.5.4. 判别器2.5.5. 随机时长预测器 3. 实验3.1. 数据集3.2. 预处理3.3. 训练3.4. 比较实验设置 4. 结果4.1. 语音合成质量4.2. 多说话人文本到语音的泛化能力4.3. 语音变化4.4. 合成速度 5. 相关工作5.1. 端到端文本到语音5.2. 变分自编码器5.3. 非自回归文本到语音中的时长预测 6. 结论 摘要
最近提出了几种支持单阶段训练和并行采样的端到端文本到语音(TTS)模型,但其样本质量不如两阶段TTS系统。在这项工作中,我们提出了一种并行端到端TTS方法,其生成的音频比当前的两阶段模型更自然。我们的方法采用了变分推理,并结合了正规化流和对抗训练过程,提高了生成模型的表达能力。我们还提出了一个随机时长预测器,用于从输入文本中合成具有不同节奏的语音。通过对潜在变量的不确定性建模和随机时长预测器,我们的方法能够表达文本输入可以以多种方式、不同音高和节奏发音的自然一对多关系。在LJ Speech(单一说话人数据集)上的主观人类评估(平均意见得分,MOS)显示,我们的方法优于当前最好的公开TTS系统,并且达到了与真实音频相当的MOS。
1. 引言
文本到语音(TTS)系统通过若干组件从给定文本合成原始语音波形。随着深度神经网络的快速发展,TTS系统流水线已简化为两个阶段的生成建模,除了文本预处理如文本规范化和音素化。第一阶段是从预处理的文本生成中间语音表示,如mel-spectrogram(Shen et al., 2018)或语言特征(Oord et al., 2016),第二阶段是生成以中间表示为条件的原始波形(Oord et al., 2016;Kalchbrenner et al., 2018)。每个两阶段流水线的模型是独立开发的。
基于神经网络的自回归TTS系统已经展示了合成逼