|
|
51CTO旗下网站
|
|
移动端

3.2.7 为特定说话人识别系统调整发声和语音模型

《实感交互:人工智能下的人机交互技术》第3章用户界面中的声控式交互技术,本书将深入讲解基于触摸、手势、语音和视觉等自然人机交互领域的技术、应用和未来趋势。本节为特定说话人识别系统调整发声和语音模型。

作者:温秀颖 译来源:机械工业出版社|2019-02-07 16:03

3.2.7 为特定说话人识别系统调整发声和语音模型

人们的说话方式千差万别。每个人的遣词造句都会受到其生理、口音、所受教育和说话意图风格(如宣读正式文件和日常手机短信的区别)的影响。

由此产生的不同发声可能会使识别特定说话人的语音系统出错,尤其在系统还未经过话语特征组合范例训练的情况下。反之,依照某个说话人模拟的特定说话人系统可能会比一般的语音系统获得更高的准确率。但是,用户不大可能录下上千小时的语音来训练一个声音识别系统。一般非特定的语音模型仅使用单个用户的语音数据,若能将这些模型改编成针对特定说话人的声学和语音模型,使用效果是非常乐观的。

声学模型有很多种编制方法。早期的产品经常使用MAP(最大后验概率法) 训练,它能修改被HMM使用的GMM的均值和方差。MAP自适应经常会闹“数据荒”,因为它需要对系统使用的大多数GMM使用训练范例。其他更多的高效数据自适应会对所有类别的三音子(如MLLR、最大似然线性回归[12])修改GMM参数。改变模型或改变输入特征都是可行的。虽然“标准”自适应受到了“监管” (即使用带转录的语音数据),有些形式的逢适应目前仍缺乏管制,使用未经查验正确的转录来输入语音数据和识别假设。

语言模型也可以根据用户或任务的不同而进行自适应。自适应既可以是调整单个参数(即根据某个特定的N元文法模型调整建构模型的参数,类似于MAP声学自适应),也可以有效地适应参数群(类似于MLLR)。比如在为一个新领域构建一个语言模型时,可以使用差值加权来合并来自不同语料库的N元文法数据。


喜欢的朋友可以加入官方的读书群

51CTO读书频道二维码


51CTO读书会第9群:808517103

【责任编辑:book TEL:(010)68476606】

回书目   上一节   下一节
点赞 0
分享:
大家都在看
猜你喜欢

订阅专栏+更多

活学活用 Ubuntu Server

活学活用 Ubuntu Server

实战直通车
共35章 | UbuntuServer

216人订阅学习

Java EE速成指南

Java EE速成指南

掌握Java核心
共30章 | 51CTO王波

83人订阅学习

Mysql DBA修炼之路

Mysql DBA修炼之路

MySQL入门到高阶
共24章 | 武凤涛

468人订阅学习

读 书 +更多

《网管员必读——网络管理》

本书在全面介绍微软2018送彩金白菜网大全网络操作系统Windows Server 2003的基础上,简要地介绍了UNIX和Linux两大操作系统的代表产品:Sun(太阳)公司的Sol...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊

51CTO服务号

51CTO播客

博聚网