|
|
51CTO旗下网站
|
|
移动端

3.2.6 训练声学和语言模型

《实感交互:人工智能下的人机交互技术》第3章用户界面中的声控式交互技术,本书将深入讲解基于触摸、手势、语音和视觉等自然人机交互领域的技术、应用和未来趋势。本节为大家介绍训练声学和语言模型。

作者:温秀颖 译来源:机械工业出版社|2019-02-07 16:02

3.2.6 训练声学和语言模型

用在声学模型中的HMM是经过复杂的训练过程从大型数据集中创建的。语音数据被转录,然后提供给一个运用最大似然目标函数的训练算法。该算法估算声学模型参数,以便能够根据转录内容增大观察训练数据的可能性。这一过程的核心是自展程序,即利用引导指令将一个初始的近似声学模型输入一个改进的版本,通过按照转录内容校准训练语料并反复训练HMM。该过程被重复多次,以期生成多个高斯混合模型,它们随后经过训练数据的考核并得出其中的高概率模型。

但是,语音识别的目标并非重现声学状态的最有可能单词序列,而是给予正确的单词序列假设比错误的假设更高的概率。这样,各个形式的区别训练就已经2018送彩金的娱乐网站出来并用来调整声学模型,以减少有关识别错误率的各种方法。

产生的声学模型一般有上千种状态、上万种混合模型组件和上百万个参数。标准系统使用“辅导”训练,即使用语音和相关的转录来训练。随着语音数据集的扩充,用尚未转录的或“粗略标注”的数据找到训练方案要花费很大的功夫。

随机的语言模型是经过含有数十亿词汇的大型文本数据库训练而得出的。大型文本数据库从互联网、专业文本数据库和安装的声音识别应用等地方收集。基础的训练算法比在声学训练中使用的要简单得多(基本就是一种计算方式),但是找到好数据、仔细比较数据以及处理未加观察的单词序列需要大量的工程技术。产生的语言模型常常包括数万个到数十亿个不等的N元词尾和数十亿个参数。


喜欢的朋友可以加入官方的读书群

51CTO读书频道二维码


51CTO读书会第9群:808517103

【责任编辑:book TEL:(010)68476606】

回书目   上一节   下一节
点赞 0
分享:
大家都在看
猜你喜欢

订阅专栏+更多

活学活用 Ubuntu Server

活学活用 Ubuntu Server

实战直通车
共35章 | UbuntuServer

216人订阅学习

Java EE速成指南

Java EE速成指南

掌握Java核心
共30章 | 51CTO王波

83人订阅学习

Mysql DBA修炼之路

Mysql DBA修炼之路

MySQL入门到高阶
共24章 | 武凤涛

468人订阅学习

读 书 +更多

计算机网络原理与实践标准教程

本书深入浅出地阐述了计算机网络技术的基本原理,介绍了当前常用的先进网络技术以及网络的实际应用知识。全书主要内容包括计算机网络概述、...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊

51CTO服务号

51CTO播客

博聚网