|
|
51CTO旗下网站
|
|
移动端

3.3 语音识别的深度神经网络

《实感交互:人工智能下的人机交互技术》第3章用户界面中的声控式交互技术,本书将深入讲解基于触摸、手势、语音和视觉等自然人机交互领域的技术、应用和未来趋势。本节为大家介绍语音识别的深度神经网络。

作者:温秀颖 译来源:机械工业出版社|2019-02-07 16:06

3.3 语音识别的深度神经网络

稳步改进的“标准”语音识别系统由于深度神经网络(DNN) 的创立而在近几年间遭到了阻断。深度神经网络是一种人工神经网络(ANN) 的形式。ANN这种运算模型在大脑的刺激下,能够进行机械化学习和模式识别。它们可以被视为相互连接的神经元,经过神经网络获取信息,从而运算出输入数据的数值。

正如其他机器学习方式,神经网络已经被用来解决了许多普通按规则编程难以处理的问题,包括电脑视觉和语音识别。

在语音识别领域,ANN在20世纪80年代末和90年代初曾一度流行。这些早期的、相对简单的ANN模型并未真正意义上超过基于GMM的HMM和声学模型的成功组合。研究人员利用含有单层非线性隐单元的人工神经网络,以期从声学系数范围中预测HMM状态。在这个方面他们还是取得了一些成功。

但是在那时,硬件和学习算法都不足以在大量数据信息中测试含有许多隐层的神经网络;无论是使用含有单一隐层的神经网络,还是使用脱离语境的音素作为输出,两者的性能优势均不足以真正地挑战GMM。因此,当时神经网络的主要贡献实际在于为GMM提供额外的特性,或者说提供了使用ANN的“瓶颈” 系统来为GMM提取额外的特性。ANN当时在语音识别系统和有限的几个商业产品中取得了一定的成功。

几年前,大多数语音识别系统仍是通过在GMM的基础上使用HMM来建模HMM发射分布的。直到最近,新研究才证明了混合声学模型运用了更为复杂的DNN,在局部最优环境中测试很少出现“卡壳”,因而能够极大改善小音素识别任务的性能。这些结果后来被应用到一个大型词汇语音搜索任务中。从那之后,几个测试组也因为在大型词汇持续语音识别(LVCSR)任务中使用了深度神经网络声学模型而取得了很大的收获。按照这个趋势,DNN嵌入系统将很快成为语音识别领域的2018送彩金白菜网大全最前沿的技术。

在实践中,用作语音识别的DNN是数个多层感知器神经网络。每个网络含有5~9个层,每层1000~2000个单元。尽管20世纪90年代使用的ANN输出的是脱离语境的音素,但是DNN使用了数目庞大的绑定状态三音素(像GMM)。两个模型的比较如图36所示。

DNN经常与局限型玻尔兹曼机器(RestrictedBoltzmannMachine) 算法一起预训练,并利用标准反向传播进行调试。分段信息通常由现存的GMM-HMM系统生成。DNN训练方案包括许多显著的环节,如图37所示。

运转时,DNN是一个标准的前馈式神经网络,它含有多层反曲形的单元和一个最顶层的softmax单元,可以在传统或并行的硬件上高效执行。

DNN被ASR使用的方式有两种:

1)用DNN来为GMM提取特征(即受限特征)。这可以通过在DNN中插入一个受限层并把该层中激活的各个单元用作GMM的特征。

2)直接在解码器(DNN-HMM混合模型)中使用DNN的输出(绑定三音子概率)。第一种方法可以对现有的基于GMM的ASR系统实施快速改进,错误率减少10% ~15%,但是第二种方法的改进效果更大,较2018送彩金白菜网大全的GMM系统能常常减少20% ~30%的错误。

神经网络作为高质量声学模型在近期重获好评的主要因素有三个:

1)更深层次的网络的使用使其更强大,因此深度神经网络(DNN) 代替了浅层神经网络。

2)正确的初始化系数和使用更快的硬件使其能够有效训练深度神经网络:DNN与局限型玻尔曼机器算法一起预训练,并使用标准反向传播进行调试;GPU用于加速训练。

3)使用大量依赖语境的输出单元而不是脱离语境的音素。一个含有大量HMM的绑定三音子状态的大型输出层极大地提高了DNN的性能。重要的是,该选项使解码算法大体上保持不变。

其他出现在DNN训练方案内的重要发现[27]包括:

1)DNN对滤波组件输出的作用效果比MFCC要好得多。实际上它可以应付关联输入特征,比起提前改变的特征,它更偏好使用原始特征。

2)DNN比GMM对说话人的敏感度更低。其实使用特定说话人的方法相较于非特定说话人DNN,并没有得到很大改进。

3)DNN在嘈杂语音中性能良好,结合了许多去噪预处理方法。

4)使用标准逻辑函数神经元有一定道理,但可能不是最佳方案。其他单元,如修正线性单元可能更具发展潜力。

5)相同的方法可以用作应用程序而不是声学建模。

6)DNN结构可以以不同的方式应用于多任务(如多语言) 学习,而且DNN比GMM在抽取某个任务数据和改进相关任务性能方面要有效得多。


喜欢的朋友可以加入官方的读书群

51CTO读书频道二维码


51CTO读书会第9群:808517103

【责任编辑:book TEL:(010)68476606】

回书目   上一节   下一节
点赞 0
分享:
大家都在看
猜你喜欢

订阅专栏+更多

活学活用 Ubuntu Server

活学活用 Ubuntu Server

实战直通车
共35章 | UbuntuServer

216人订阅学习

Java EE速成指南

Java EE速成指南

掌握Java核心
共30章 | 51CTO王波

83人订阅学习

Mysql DBA修炼之路

Mysql DBA修炼之路

MySQL入门到高阶
共24章 | 武凤涛

468人订阅学习

读 书 +更多

计算机网络技术

本书是为北大燕工教育研究院编写的计算机网络技术的学习教材。它以实际教学大纲为依据,全面系统的介绍了计算机网络技术知识,对于一个...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊

51CTO服务号

51CTO播客

博聚网