做个普通的网站在上海做要多少钱,专业建站公司报价,wordpress单页视差,网页主要由三部分组成在 大模型之三十-语音合成TTS(coqui)[shichaog CSDN]中提到了xttsv2的fine-tune。
数据情况#xff1a;
我是从bilibili up主小Lin说提取了一些视频#xff0c;然后进行了重新的fine-tune。
训练结果
如下图所示#xff0c;上面波形幅度较大的是xttsv2原始模型的结果CSDN]中提到了xttsv2的fine-tune。
数据情况
我是从bilibili up主小Lin说提取了一些视频然后进行了重新的fine-tune。
训练结果
如下图所示上面波形幅度较大的是xttsv2原始模型的结果第二个是fine-tune了290000 step之后的结果因为CSDN没法直接放wav文件上传到CSDN上了但是不知道怎么变成了VIP资源如果想要的可以留言超过10人我做个网盘链接供大家下载。
后续计划
后续会训练vits模型以和xttsv2的效果做对比改进中文编码只支持中英文以提高效率性能增加文本上下文以合成合适情感、情境的语音