化妆品网站设计报告,新网$网站优化,网站开发空间小,档案信息网站建设情况本文是针对多模态对话系统核心技术栈的使用效果和网络测评整理。
测评内容基于用户体验#xff0c;侧重于从使用者角度出发#xff0c;讨论实际操作中的体验感受#xff0c;如技术的易用性、输出效果如文本的连贯性、语音的自然度、口型同步的准确性等。不涉及具体算法架构…本文是针对多模态对话系统核心技术栈的使用效果和网络测评整理。
测评内容基于用户体验侧重于从使用者角度出发讨论实际操作中的体验感受如技术的易用性、输出效果如文本的连贯性、语音的自然度、口型同步的准确性等。不涉及具体算法架构的分析仅供参考。 文本GPT千帆ClaudeTTSElevenlabs讯飞GCPGoogle cloud Platform convai内置)lipsyncMetahumanSDKConvAI自研Audio to face 对比分析
文本
GPT
GPT全面能力比千帆更强 文字处理这块差不多GPT的知识库比较大 并且敏感词限制很少/千帆的文心有敏感词设置发布大模型经过备案审核
千帆
最大的差异就是价格千帆便宜文言文 中国文化等本土内容千帆更头部
Claude Claude与GPT分析对比图源网络 TTS
仅中文语音分析
Elevenlabs:有优质的台湾语调语音库内陆语音库也还行。
讯飞不支持convAI第三方集成需要企业对接。本身有明显的“的地得”不分得问题。
GCPGoogle cloud Platform难听指中文。metahuman内置的voice IDgoogle和Azurewhatever也很难听气口不对声调错误阴平阳平上声去声不分甚至会读错字 Lipsync
Metahuman SDK动画总体有非常多的bug升级了pricing plan仍然有和免费试用版一样的五秒时间限制/ 会在嘴张着的情况停止讲话/ 身首分离的问题可以解决但麻烦
convai自研有audio2face runtime 百分之七八十的效果完全免费。
Audio2Face流式可以集成在ConvAI中但企业版年费偏高昂 综合流程
文本GPT千帆ClaudeTTSElevenlabs讯飞GCPGoogle cloud Platform convai内置)lipsyncMetahumanSDKConvAI自研Audio to face
个人用户可以使用“GPT-Elevenlabs-ConvAI”的技术栈组合。均有免费额度。
企业用户要求最佳效果的技术栈组合可以参考“GPT-Elevenlabs-ConvAI-Audio to face runtime lipsync” Reallusion建议
切换音色convai的协同表现非常好但第三方API集成只支持Elevenlabs需要使用付费套餐但价格偏低廉。 Monthly interaction of different pricing plans You can use Elevenlabs voices in Convai. There are 2 ways to access Elevenlabs voices. First, your Convai plan must be a Gamer plan or higher. However, each plan has a separate ElevenLabs Interaction quota. ElevenLabs Quota is as in the screenshot I shared below. In this way, you can access ElevenLabs voices in the Character Voices section in Convai. Another method is to connect your ElevenLabs account. However, your Elevenlabs account must have a Pro plan or higher. This way you can also add custom ElevenLabs voices, and your ElevenLabs quota is the same as the quota on your account. Documentation: https://docs.convai.com/api-docs/plugins-and-integrations/elevenlabs-api-integration A small note, this way you cant use Convais Elevenlabs voices, you need to upgrade your Convai plan. So when you connect the Elevenlabs API, everything related to Elevenlabs is connected to your Elevenlabs account. convai不支持屏蔽关键词需要去人设设置里告诉它不说某些词语但不是强制屏蔽。 https://zh.wikipedia.org/wiki/%E6%AD%A7%E8%A7%86%E8%AF%AD 可以设置口癖如“这样子哦”“有啦”“真的假的”“不好意思”“对啊/对啦”“没关系”“还好啦”“吼”“咩”。最好需要在人设里给详细解释 “这样子哦” 这是一种表示理解或回应对方说话的口头禅常常用在对话中表达对信息的接收或共鸣感。 “有啦” 台湾人常用“有啦”来强调某件事的存在或发生例如“我有做啦”表示自己确实做了某事。 “真的假的” 表示惊讶、怀疑或不确定的回应类似于大陆的“真的吗”。 “不好意思” 这在台湾不仅用于道歉常常也用作礼貌的开场白或表示客气。例如在请求帮助或打扰别人时台湾人会说“不好意思”来显得更礼貌。 “对啊/对啦” 用于表示同意或附和尤其是在对方表达观点时台湾人会用“对啊”或“对啦”来表示赞同。 “没关系” 表示不介意、不在意类似于“没事”、“无所谓”。这句话在台湾人的日常对话中非常常见用来缓解尴尬或表示宽容。 “还好啦” 表示某件事情还算过得去、没有太大问题常用来回应别人对自己状态或事情的询问。 “吼” 语气助词用来加重语气或表达抱怨。例如“你怎么这样吼”有时带有一点撒娇或不满的意思。 “咩” 也是语气助词常出现在句尾用来表达无奈或调皮的感觉例如“我也不知道咩。” 其他建议
动态字数在人设里一般问答的长度设置的更精简随着问题的难度而动态放宽字数限制。否则每个回答都回答一长段 / 困难的问题很快回答 / 简单的问题过于啰嗦的回答 都会更不像真人
眼球动画make the AI not always look at player
细微动作change NPC animation while listening player talking/ thinking about anwser。
Action将走/跑/摊手等动作blend使用。
语音情绪转换convai集成流程支持初始情绪设定(如图对话过程中声音情绪转变暂不支持