如何组织公司做网站,wordpress tinymce 字体,the 7 wordpress theme,地方门户网站带手机版转自 机器学习算法工程师
OpenAI又发布了一个最新的工作#xff1a;Voice Engine。Voice Engine可以使用文本输入和单个 15 秒音频样本生成听起来自然且与原始说话者非常相似的语音。而且#xff0c;一个小型模型仅通过一个 15 秒的样本就能创造出富有情感且逼真的语音。Voi…转自 机器学习算法工程师
OpenAI又发布了一个最新的工作Voice Engine。Voice Engine可以使用文本输入和单个 15 秒音频样本生成听起来自然且与原始说话者非常相似的语音。而且一个小型模型仅通过一个 15 秒的样本就能创造出富有情感且逼真的语音。Voice Engine开发于2022年末已经用于OpenAI的文本转语音API以及ChatGPT语音生成中。由于合成语音可能被滥用所以OpenAI比较谨慎地发布和部署Voice Engine。
这里OpenAI给出了Voice Engine的可能的早期应用。
提供阅读辅助
Voice Engine可以合成自然且听起来、富有情感的语音为非读者和儿童提供阅读辅助这些语音代表了比预设语音更广泛的说话者范围。专注于儿童学业成功的教育技术公司 Age of Learning 一直在使用这项技术来生成预先编写的配音内容。他们还使用 Voice Engine 和 GPT-4 来创建实时、个性化的响应与学生互动。借助这项技术Age of Learning 已经能够为更广泛的受众创造更多内容。
翻译内容
翻译内容如视频和播客让创作者和企业能够以流利的、自己的声音触及世界各地的更多人。这方面的早期采用者之一是 HeyGen一个 AI 视觉叙事平台它与企业客户合作为各种内容创建定制的、类似人类的头像从产品营销到销售演示。他们使用 Voice Engine 进行视频翻译这样他们就可以将说话者的声音翻译成多种语言触及全球观众。当用于翻译时Voice Engine 保留了原始说话者的本地口音例如使用来自法语说话者的音频样本生成英语会产生带有法语口音的语音。
触及全球社区
通过改善偏远地区的基本服务交付触及全球社区。Dimagi 正在为社区卫生工作者构建工具以提供各种基本服务如对哺乳母亲的咨询。为了帮助这些工作者提升他们的技能Dimagi 使用 Voice Engine 和 GPT-4 提供每位工作者的主要语言的交互式反馈包括斯瓦希里语或更非正式的语言如在肯尼亚流行的混合代码语言 Sheng。
支持非言语人群
例如用于影响言语的病症的治疗效果和对有学习需求的人的教育增强。Livox一个 AI 替代通讯应用程序为增强和替代通讯AAC设备提供动力使残疾人能够交流。通过使用 Voice Engine他们能够为非言语人群提供独特且非机械性的多种语言语音。他们的用户可以选择最能代表他们的语音对于多语言用户可以在每种口语中保持一致的语音。
帮助患者恢复他们的声音
对于那些患有突发性或退行性言语病症的人。Lifespan 的 Norman Prince Neurosciences Institute一个非营利性卫生系统作为布朗大学医学院的主要教学附属机构正在探索 AI 在临床环境中的用途。他们一直在试行一个项目为因肿瘤或神经原因导致言语障碍的个人提供 Voice Engine。由于 Voice Engine 只需要如此短的音频样本医生 Fatima Mirza、Rohaid Ali 和 Konstantina Svokos 能够恢复一位因血管性脑肿瘤失去流利言语的年轻患者的语音使用的是她为学校项目录制的视频中的音频。