当前位置: 首页 > news >正文

棠下网站建设怎么做网站或APP

棠下网站建设,怎么做网站或APP,wordpress纯代码下载,花卉网站建设策划方案语音识别的基本概念​​​​​​​ ​​​​​​​ 言语是一种复杂的现象。人们很少了解它是如何产生和感知的。天真的想法常常是语音是由单词构成的#xff0c;而每个单词又由音素组成。不幸的是#xff0c;现实却大不相同。语音是一个动态过程#xff0c;没有明确区分的…语音识别的基本概念​​​​​​​ ​​​​​​​ 言语是一种复杂的现象。人们很少了解它是如何产生和感知的。天真的想法常常是语音是由单词构成的而每个单词又由音素组成。不幸的是现实却大不相同。语音是一个动态过程没有明确区分的部分。找一个声音编辑器并查看演讲录音并聆听它总是很有用的。例如这是音频编辑器中的语音录音。 所有现代的言语描述在某种程度上都是概率性的。这意味着单位之间或单词之间没有特定的界限。语音到文本的翻译和其他语音应用从来都不是 100% 正确的。对于通常使用确定性系统的软件开发人员来说这个想法相当不寻常。它产生了许多仅针对语音技术的问题。 言语结构 在目前的实践中语音结构的理解如下 语音是连续的音频流其中相当稳定的状态与动态变化的状态混合在一起。在这一系列状态中人们可以定义或多或少相似的声音类别或音素。人们认为文字是由电话构成的但这肯定不是事实。与电话相对应的波形的声学特性可能会因许多因素而有很大差异 - 电话环境、说话者、讲话风格等。所谓的协同发音使手机听起来与其“规范”的表现截然不同。接下来由于单词之间的转换比稳定区域提供更多信息因此开发人员经常谈论双音素- 两个连续电话之间的电话部分。有时开发人员会谈论亚音位单元 - 手机的不同子状态。通常可以找到三个或更多不同性质的区域。 数字三很容易解释电话的第一部分取决于其前一个电话中间部分稳定接下来就看后续手机了。这就是为什么选择用于语音识别的手机通常具有三种状态的原因。 有时电话是在上下文中考虑的。这种音素在上下文中被称为 三音素甚至五音素。例如单词“bad”中带有左音素“b”和右音素“d”的“u”听起来与单词中带有左音素“b”和右音素“n”的同一个音素“u”听起来有点不同。 “禁止”。请注意与双音素不同它们的波形范围与普通音素相同。它们只是名称不同因为它们描述的声音略有不同。 出于计算目的检测三音素的部分而不是整个三音素很有帮助例如如果您想为三音素的开头创建一个检测器并在许多三音素之间共享它。声音检测器的全部种类可以用少量不同的短声音检测器来表示。通常我们使用4000个不同的短声检测器来组成三音素检测器。我们将这些探测器称为“senone”。senone 对上下文的依赖可能比左右上下文更复杂。它可以是由决策树或其他方式定义的相当复杂的函数。 接下来手机构建子词单元例如音节。有时音节被定义为“还原稳定实体”。例如当语音变快时电话经常会改变但音节保持不变。此外音节与语调轮廓相关。还有其他方法可以构建子词 - 基于形态在形态丰富的语言中或基于语音。子词经常用于开放词汇语音识别。 子词形成单词。单词在语音识别中很重要因为它们极大地限制了电话的组合。如果有 40 个音素平均一个单词有 7 个音素则必须有 40^7 个单词。幸运的是即使是词汇量丰富的人在实践中也很少使用超过 20k 的单词这使得识别方式更加可行。 单词和其他非语言声音我们称之为填充词呼吸、嗯、呃、咳嗽形成话语。它们是暂停之间的独立音频块。它们不一定与句子匹配句子是更多语义概念。 除此之外还有一些对话行为例如轮流但它们超出了本文档的目的。 识别过程 识别语音的常见方法如下我们获取一个波形将其按静音分开然后尝试识别每个话语中所说的内容。为此我们希望采用所有可能的单词组合并尝试将它们与音频进行匹配。我们选择最佳的匹配组合。 在这个匹配过程中有一些重要的概念。首先是特征的概念。由于参数数量较多我们正在尝试对其进行优化。根据语音计算得出的数字通常通过将语音划分为帧来计算。然后对于每帧通常长度为 10 毫秒我们提取代表语音的 39 个数字。这就是所谓的特征向量。生成参数数量的方法是一个积极研究的主题但在简单的情况下它是频谱的导数。 其次是模型的概念。模型描述了一些收集口语单词的共同属性的数学对象。实际上对于 senone 的音频模型它是三个状态的高斯混合 - 简而言之它是最可能的特征向量。从模型的概念来看存在以下问题 该模型对现实的描述效果如何考虑到模型的内部问题以及模型是否可以做得更好如果条件发生变化模型的适应性如何 语音模型称为隐马尔可夫模型或 HMM。它是描述黑盒通信通道的通用模型。在该模型中过程被描述为以一定概率相互改变的一系列状态。该模型旨在描述任何顺序过程例如语音。HMM 已被证明对于语音解码确实非常实用。 第三它本身就是一个匹配过程。由于将所有特征向量与所有模型进行比较所需的时间比宇宙存在的时间更长因此通常通过应用许多技巧来优化搜索。在任何时候我们都会维护最佳匹配变体并随着时间的推移扩展它们为下一帧生成最佳匹配变体。 楷模 根据语音结构语音识别中使用了三种模型进行匹配 声学模型包含每个声学的声学属性。有包含属性每个音素最可能的特征向量的上下文无关模型和上下文相关模型由具有上下文的 senone 构建。 语音词典包含从单词到音素的映射。这种映射不是很有效。例如其中只注明了两到三个发音变体。然而大多数时候它足够实用。字典并不是将单词映射到音素的唯一方法。您还可以使用通过机器学习算法学习的一些复杂函数。 语言模型用于限制单词搜索。它定义了哪个单词可以跟在先前识别的单词之后请记住匹配是一个顺序过程并通过剥离不可能的单词来帮助显着限制匹配过程。最常见的语言模型是n-gram语言模型这些包含单词序列的统计数据以及有限状态语言模型这些通过有限状态自动化定义语音序列有时带有权重。为了达到良好的准确率您的语言模型必须在搜索空间限制方面非常成功。这意味着它应该非常擅长预测下一个单词。语言模型通常将所考虑的词汇限制为其包含的单词。这就是名字识别的问题。为了解决这个问题语言模型可以包含更小的块例如子词甚至音素。 这三个实体在一个引擎中组合在一起来识别语音。如果您要将引擎应用于其他语言则需要将此类结构落实到位。对于许多语言都有声学模型、语音词典甚至大词汇量语言模型可供下载。 使用的其他概念 格子是表示识别变体的有向图。通常获得最佳匹配是不切实际的。在这种情况下点阵是表示识别结果的良好中间格式。 N 最佳变体列表就像格子尽管它们的表示不如格子那么密集。 单词混淆网络香肠是格子其中严格的节点顺序取自格子边缘。 语音数据库- 任务数据库中的一组典型录音。如果我们开发一个对话系统它可能是用户录制的对话。对于听写系统它可能正在阅读录音。语音数据库用于训练、调整和测试解码系统。 文本数据库- 为语言模型训练等而收集的样本文本。通常文本数据库以样本文本形式收集。这种集合的问题是将现有文档如 PDF、网页、扫描件放入语音文本形式。也就是说您需要删除标签和标题将数字扩展为其口语形式并扩展缩写。 优化了什么 当开发语音识别时最复杂的问题是使搜索精确考虑尽可能多的变体来匹配并使其足够快而不会运行很长时间。由于模型并不完美另一个挑战是使模型与语音相匹配。 通常系统在测试数据库上进行测试该数据库旨在正确表示目标任务。 使用以下特征 单词错误率假设我们有一个原始文本和一个长度为N 个单词的识别文本。I是插入的单词数。D是删除的单词数S表示替换的单词数。据此错误率可以计算为 WER (I D S) / N WER 通常以百分比来衡量。 准确率与误词率几乎相同但不考虑插入。 准确度 (N - D - S) / N 对于大多数任务来说准确性比 WER 更差因为插入对于最终结果也很重要。然而对于某些任务准确性是解码器性能的合理衡量标准。 速度假设音频文件的录制时间 (RT) 为 2 小时解码需要 6 小时。那么速度算作3xRT。 ROC 曲线当我们谈论检测任务时存在误报和命中/未命中的情况。为了说明这些使用了ROC曲线。这样的曲线是描述误报数量与命中数量的关系图。它试图找到误报数量很少且命中数量匹配 100% 的最佳点。 还有其他属性通常不被考虑但对于许多实际应用仍然很重要。您的首要任务应该是建立这样的措施并在系统开发过程中系统地应用它。您的第二个任务是收集测试数据库并测试应用程序的性能。
http://www.dnsts.com.cn/news/198267.html

相关文章:

  • 陕西省城乡建设厅的网站河南网站制作工作室
  • 白酒类网站模板wordpress下一篇调用
  • 嘉兴网站建设咨询长宁区网站建设网页
  • 怎么提升网站的排名建设网站500错误
  • 衡阳建设网站广东网站建设电话咨询
  • 一级a做爰片手机电影网站网站主题的分类
  • 烟台 o2o平台带动做网站行业小程序 wordpress绑定
  • 网站策划编辑是干嘛的安卓开发课程
  • 网站建设流程方案河北保定建设集团招聘信息网站
  • 企业网站的建设怎么收费做网站着用什么软件
  • 网站建设宽度一般都是多少钱企业智能网站后台管理系统
  • 山东中佛龙建设有限公司网站公司网站设计注意什么
  • 广州建设工程造价管理网站网站运营策划书
  • 创建官方网站网址网站建设所需的硬件设备
  • 用手机域名做网站怎么写网站建设维护推广合同
  • 网站建设实战案例新浪云 安装wordpress
  • 广东重工建设监理有限公司官方网站wordpress调用文章标签
  • 做购物网站的业务wordpress app应用
  • 网站备案修改域名网站流量被黑
  • 网站设计分享虚拟房间设计app
  • 温州网站制作价格天津建设工程信息网中标公告
  • 优必选网站产品优化是什么意思
  • 2023年生鲜电商交易规模超6000亿网站seo知识
  • 地方门户网站建站流程精品课程网站开发平台
  • 开发手机网站的步骤公共网站怎地做
  • 最好建网站系统的软件乐彩网站源码网站建设
  • 网站开发项目答辩ppt价格低的车
  • 设计分享网站四川建设工程信息网官网
  • 乌克兰网站后缀wordpress怎么设置页面导航
  • 网站设计找谁做安卓app开发