怎么给wordpress加背景图,廊坊优化技巧,广东城乡住房建设部网站,贵州高端网站开发AI 与未来的语音交互 引言什么是文本转语音#xff08;TTS#xff09;#xff1f;当前 TTS 技术现状国内海外文本转语音能力调研文本转语音能力说明多情感风格SSML语音合成标记语言 未来趋势 引言
随着人工智能#xff08;AI#xff09;技术的迅猛发展#xff0c;文本转… AI 与未来的语音交互 引言什么是文本转语音TTS当前 TTS 技术现状国内海外文本转语音能力调研文本转语音能力说明多情感风格SSML语音合成标记语言 未来趋势 引言
随着人工智能AI技术的迅猛发展文本转语音Text-to-Speech, TTS技术逐渐进入了我们的日常生活中。 已广泛应用于不限于以下示例场景
流式语音实时翻译对话非流式语音对话机器人一问一答式对话类似豆包、Kimi等AI工具的智能助手用户友好的功能引导提示游戏NPC交互儿童读物影视配音电子书…
什么是文本转语音TTS
文本转语音TTS是一种将书面文本转换为语音的技术。用户可以通过输入文本利用 TTS 系统生成听起来自然流畅的语音。TTS 系统通常由以下几个主要组件组成
文本分析解析输入的文本识别分词、语法、标点和其他语言特征。语言处理根据语言特征将文本转换为音素phonemes和音节syllables。语音合成将音素和音节转换为实际声音通常采用预录音频或合成方式。
当前 TTS 技术现状 神经网络与深度学习近年来随着神经网络和深度学习技术的突破TTS 的质量得到了显著提升。尤其是 WaveNet、Tacotron 和 FastSpeech 等模型在合成的自然度和表现力上远超传统 TTS 系统。这些模型能够生成更加流畅、自然的语音甚至模仿特定说话者的音色。 多语言支持现代 TTS 系统已支持多种语言适应全球用户需求。许多大厂商的 TTS 技术能够处理包括中文、英文、西班牙文等多种语言并且提供不同地区的口音和方言。 个性化语音个性化语音合成技术的出现使得用户可以定制语音特征如音调、语速和情感风格。这种个性化的体验在教育和娱乐等领域尤为重要。
国内海外文本转语音能力调研
三方厂商服务多音色SSML标记语言多情感Emotion语速rate音调pitch音量volumeAPI价格备注出门问问魔音工坊是是是是是是是标准音色100元/百万字符精品音色300元/百万字符支持多情感国内语音合成效果非常好的一款产品英文语音效果亦佳阿里云TTS是是是是是是是1.80元/千次部分中文音色支持多情感英文音色不支持多情感腾讯云语音合成是是否是是是是标准音色0.2元/万字符 精品音色0.3元/万字符英文不支持多情感火山云语音技术是是否是是是是5.5元/千次慵懒女声-Ava、情感女声-Lawrence、亲切女声-Anna支持通用、开心、悲伤、生气、害怕、厌恶、惊讶等情感。男声不支持多情感科大讯飞TTS 是是是是是是否1、会员月/45元权益-80次/天2、单次付费120字5元2150字10元51100字20元101300字30元3011000字45元10015000字78元5001~20000字168元图形化操作不支持API英文不支持多情感Elevenlabs是否否是否否是$99/500min$330/2000min/英文场景优先推荐英文音色效果很好多情感需要文本中包含情感描述导致合成语音存在情感描述。对情感类支持灵活性低。Google Cloud是是否是是是是标准语音$4.00/100万字符Neural2 语音$16.00/100万字符英文语音效果好可通过SSML实现语音控制Azure AI是是是是是是是$15.00/100万字符英文场景优先推荐英文音色效果很好支持多情感音色AWS Polly是是否是是是是标准语音$4.00/100 万字符 神经语音$16.00/100 万字符多情感只能通过选择不同的音色配置不同的语速和语调来表达积极或失落的情感ArtList是否是是否否否$11.99/月50,000积分约1个小时音频语音效果较好。支持多情感但情感分类较少。图形化操作不支持APIPlay.ht是否否是否否是$49.00/月25万字符需要通过声音参数表现力稳定性、声音相似性、情绪强度来调整语音设置类似elevenlabs对情感类支持灵活度较低。
文本转语音能力说明 此处以出门问问的序列猴子开放平台音色为例介绍下音色主要的能力。 首先音色有分类男声、女声、儿童、青年、中年、老年、中文、英文、韩语、法语这些最基本的大类。
音色 每个人的音色都不一样不同的AI音色也不一样语速 控制指定音色制作语音讲话的快慢音调 控制指定音色制作语音的音调大小音量 控制指定音色制作语音的音量大小
多情感风格
然后重要介绍下音色的多情感风格训练出一款好的AI音色不局限于一种中性风格。例如出门问问会支持开心、难过、惊喜、生气、呢喃、新闻等各种情感色彩Azure会支持友好、充满希望、柔和等情感风格 一个普通的AI模型是没有感情色彩的通常为中性通过中性音色制作的语音听起来有明显的AI感、机械化没有感情色彩。一个支持多情感的音色是可以处理短文故事文案中各种复杂场景的且语音合成没有AI感更接近真实的人声。
此处以Azure AI语音Style为例。
情感风格风格描述friendly表达一种愉快、怡人且温暖的语气。 听起来很真诚且满怀关切。hopeful表达一种温暖且渴望的语气。 听起来像是会有好事发生在说话人身上。whispering表达一种柔和的语气试图发出安静而柔和的声音。empathetic表达关心和理解。chat表达轻松随意的语气。serious表达严肃和命令的语气。 说话者的声音通常比较僵硬节奏也不那么轻松。excited表达乐观和充满希望的语气。 似乎发生了一些美好的事情说话人对此满意。
SSML语音合成标记语言
正常语音合成输入纯文本即可语音合成引擎内部会使用基于规则或者统计学习模型的方法去做文本分析尝试预测合理的注音和韵律等。 使用SSML标签标记文本中的关键文字可以指定文字的发音、语速、停顿、多音字处理、情感风格等。提到这些功能大概可以知道SSML标签可以更加细化的控制我们的语音合成效果。实际生产过程中对制作语音要求高的场景往往建议你通过SSML标签来控制。
示例
9月10日庆祝2019年教师节暨全国教育系统先进集体和先进个人表彰大会在京举行。
XXX在XXX亲切会见受表彰代表向受到表彰的先进集体和先进个人表示热烈祝贺向全国广大教师和教育工作者致以节日的问候。文本转语音API调用
{signature: appkeysecrettimestamp的MD5值,timestamp: 1665717322,appkey: 开发者应用appkey,speaker: cissy_meet,ignore_limit: true,gen_srt: true,audio_type: mp3,text: 9月10日庆祝2019年教师节暨全国教育系统先进集体和先进个人表彰大会在京举行。
XXX在XXX亲切会见受表彰代表向受到表彰的先进集体和先进个人表示热烈祝贺向全国广大教师和教育工作者致以节日的问候。,speed: 1.0
}SSML标签处理后示例 此处对教师节制定了读音及读第几声。通过break控制停顿500ms。更多能力请参考官方文档语音合成标记语言SSML使用说明
speak version1.0 xml:langzh-CN xmlnshttp://www.w3.org/2001/10/synthesis9月10日庆祝2019年w phonemejiao4 shi1 jie2教师节/w暨全国教育系统先进集体和先进个人表彰大会在京举行。break time500ms /XXX在XXX亲切会见受表彰代表break time500ms /向受到表彰的先进集体和先进个人表示热烈祝贺break time500ms /向全国广大p phonemejiao4教/p师和教育工作者致以节日的问候。/speak文本转语音API调用
{signature: appkeysecrettimestamp的MD5值,timestamp: 1665717322,appkey: 开发者应用appkey,speaker: cissy_meet,ignore_limit: true,gen_srt: true,audio_type: mp3,text: speak version\1.0\ xml:lang\zh-CN\ xmlns\http://www.w3.org/2001/10/synthesis\9月10日庆祝2019年w phoneme\jiao4 shi1 jie2\教师节/w暨全国教育系统先进集体和先进个人表彰大会在京举行。break time\500ms\ /XXX在XXX亲切会见受表彰代表break time\500ms\ /向受到表彰的先进集体和先进个人表示热烈祝贺break time\500ms\ /向全国广大p phoneme\jiao4\教/p师和教育工作者致以节日的问候。/speak,speed: 1.0
}未来趋势
更自然的语音生成目前的语音合成很多时候虽然还是被吐槽一听就有AI感但是已存在部分厂商的音色去AI感了。未来的 TTS 技术将继续朝着更高的自然度和声音表现力发展甚至可能实现像人声一样真实的交互。专属AI语音模型训练目前已经很多厂商在做训练用户专属的AI语音模型并已经作为功能开放出来供开发者训练指定音色模型比如我们投喂姚明的大量的语音资源可以训练出姚明的音色模型出来。情感语音合成随着情感计算技术的发展TTS 将能够生成不同情感的语音自动分析前后文动态的切换感情色彩提升人机交互的情感表达能力。跨模态学习结合图像、视频和文本等多种模态的信息处理未来的 TTS 系统将能够更好地理解上下文从而生成更恰当的语音输出。隐私与安全随着个人语音数据的增加确保用户隐私和数据安全将成为 TTS 技术发展的重要课题。