|
|
51CTO旗下网站
|
|
移动端

3.7 语音合成

《实感交互:人工智能下的人机交互技术》第3章用户界面中的声控式交互技术,本书将深入讲解基于触摸、手势、语音和视觉等自然人机交互领域的技术、应用和未来趋势。本节为大家介绍语音合成。

作者:温秀颖 译来源:机械工业出版社|2019-02-07 16:34

3.7 语音合成

许多手机应用程序不仅能识别并执行用户的有声输入,而且能将语言信息通过文本语音合成(TTS)向用户展示。TTS有丰富的过往发展经验[46],许多元素已经得到标准化。如图312所示,TTS有两个组件:前端(FE)和后端(BE)处理。前端处理从文本分析中获取信息;后端处理将该信息依照以下两个过程转为声音:

首先,它在存有预先分析的语音数据的索引知识库中搜索,找到与前端提供的信息最关联的索引数据(单元选择)。

其次,该信息被语音合成器使用,以生成合成语音。

预先分析的数据可能被存为编码语音或一组用来驱动语音产出的模型参数,或两者同时存在。

图312中,前端被分成两个组成部分:文本预处理和文本分析。“真实世界” 中的应用需要文本预处理,这些应用程序中的TTS系统应该阐释大范围的数据格式和内容,包括短小、语体特色鲜明的对话提示和长篇的、结构复杂的话语。文本预处理视具体应用而定,比如,需要阅读从数据库抽取的顾客和产品信息的预处理将与阅读从RSS源获取的新闻截然不同。而且,文件可能包含辅助浏览器内可视化阅读的标记或在页码上的标记,比如标题、章节名称等。预处理器必须重新阐释该信息,使其产出能够按照文本的结构表达。

文本分析可以分成四种处理活动:符号化和标准化,句法分析,韵律预测以及字音转换。符号化有助于合理解析正确的拼字。比如,一个电话号码在写下来后能够被识别,并在阐述的时候会表现出常规的韵律结构。在符号化的过程中时,各字母被分归进了符号组,一个符号就是一串从属于定义类别的字符。一个数字就是一个简单符号的例子,而电话号码就是一个复杂的符号。符号化在像汉语这样的书写体系中十分困难,因为句子是以汉字的顺序书写,汉字之间没有书写间隔。

文本标准化是把正确的拼字转化成扩展的标准化表达式的过程[如$500就被扩展成
“fivedollors”(五美元)]。该过程是下一步句法分析的前提。句法分析通常包括部分语音和
确定稳健的句法结构。这些处理有助于语音发音的筛选和韵律结构的预测。

韵律可以定义为语音的节奏、强调和语调,它是交流说话人意图(如问题、陈述或命令)和感情状态的关键。在声调语言中,字的意义与具体的声调规律之间也存在着关系。韵律预测组件通过使用具有象征意义的信息(如强调模式、语调和换气单位) 和参数信息(如音高、振幅和长短轨迹),能够在韵律上表现编写在文本内的深层含义和结构。参数信息可以量化并在筛选过程中或直接在参数合成器中作为一个特征来使用(或两者同用)。

在大多数语言中,字素(即字母) 与声音的表达(即音素) 是非常复杂的。为了简化筛选正确声音的过程,TTS系统首先将字素序列转化成音素序列,以便更贴切地表达要发出的声音。TTS系统通常结合使用大型发音词典和字素到音素(G2P) 规则来把输入转化成一个音素序列。一个发音词典包含了数以万计的词条(通常是词素,但也有成形的单词),每个词条都含有单词发音的语音表达,但有时也有其他诸如词性的信息。发音可以直接从词典中获取,也可以通过结合单词的形态解析和词汇查询来获得。没有哪个词典是完整的,因为新的单词会从语言中持续生成。各G2P使用语音学法则来为词汇表之外的单词生成发音。

生成音素序列的最后一步是后词汇处理,也就是影响了连音、吞音、删减和韵母弱化的持续语音生成被应用到音素序列中。根据说话人的调整也可以应用于把词典存储的或G2P规则生成的范例发音转化成合乎习惯的发音。

如前面所述,后端包含两个阶段:单元筛选与合成。在两个广泛使用的合成形式中更受青睐的是拼接合成,即由单元索引的选定声音片段有选择的组合一起。诸如基音同步叠加法(PSOLA)这样的信号处理方法可以用来修整衔接处并提供更强的韵律控制,虽然这会导致一定的信号退化。参数合成常用HMM合成法,即使用频谱帧和激励参数来驱动一个参数语音合成器。

表32指出了拼接法和参数法的不同。如表所示,拼接法保证了最大的忠实度,却牺牲了灵活性和规模;参数合成在小规模的基础上提供了很大的灵活性,却牺牲了忠实度。因此,参数方案通常使用在存储空间有限的嵌入式应用中。

单元筛选尝试从已生成的数据库中寻找单元U的最优序列,数据库中描述了前端为分析句子而生成的目标序列T的特征(见图312)。两个试探性获得的成本函数被用来限制搜索和筛选。这些是单元成本(数据库中的单元特征与目标序列中的元素的匹配近似度)和联合成本(附近单元的匹配程度)。通常动态编程用来建构全局中最优单元的序列,以减少单元和联合成本。

在HMM选择,目标序列T被用来建构一个HMM,参考来自语境集群的三音子HMM的拼接。得出的最优序列的参数矢量可以对下式进行最大化:

式中,O是要被优化的参数矢量序列;λ是一个HMM;N是序列的长度。不同于单元筛选法是基于局部单元成本和联合成本来决定最佳性,统计法则设法构建一个避免突然阶跃变化的最优序列,通过考虑二阶特征来实现。虽然还是未被广泛采用,现在一个新兴的趋势是混合这两种方法。混合法使用状态序列来共同生成参数和单元的候选序列。对于使用哪种方法的决定需要在每一个状态下做出,且基于语言的语音规则和对参数方案强大建模功能的理解。

生成自然合成语音有两大最根本的挑战。首先是表达式,它是FE能够辨识和稳健抽取特征的一种能力,抽取的特征与在有声语言中观察到的特征一一对应;伴随相关的是另一种能够查找并标注相同特征的语音数据的能力。一个索引了极少特征的语音数据库会生成较差的单元识别力,而只能生成一组索引特征的FE将导致数据库中的单元永远无法用作训练或筛选。换句话说,FE的表达能力必须匹配索引的表达能力。

第二项挑战是贫乏性,即必须存在足够的声音样本来充分展示FE生成的特征表达能力。在拼接合成中,贫乏性意味着系统被迫选择一个匹配不足的声音,仅仅是因为它无法找到充分的近似值。在HMM合成中,贫乏性导致产生了训练不足的模型。听觉效果的贫乏性随着语体越发丰富而增加。通过构建能够从高层特征中生成合成声音的语音模型,贫乏性能够在某种程度上因为这些强大的模型而得到缓和。最近,诸如CAT(集群适应性训练)和DNN (深度神经网络[Zen等,2013])这样的技术已经得以应用,通过避免分段造成的贫乏性效果增加,它们能够最优化现有的训练数据。

如表32所示,拼接法取得的商业成功主要由于高度忠实的合成技术是可行的,只要小心控制好录制语体并确保在构建语音单元数据库时,在重点应用领域有足够的声音覆盖。用相对简单的FE分析和简单的BE合成是可以取得令人意外的优质成果的。但从技术上来说,这些方法有可能会逐渐陷入困境。虽然这些系统服务于许多传统市场,但它们还是比较昂贵,生成也比较费时。

高度表达个性化代理日益增长的商业需求正不断推动可训型系统的2018送彩金的娱乐网站。在FE方面,统计分类器正在取代规则式的分析方法;在BE方面,数据筛选和混合参数系统正在促成灵活性与忠实性的相互结合。想要合成诸如新闻和维基百科词条这样的复杂文本的决心鼓励着2018送彩金的娱乐网站者思考如何把语义学和语用学的知识灌输到FE中,也因此需要考虑如何在BE中实现抽象概念与其声学实现的复杂数据匹配。


喜欢的朋友可以加入官方的读书群

51CTO读书频道二维码


51CTO读书会第9群:808517103

【责任编辑:book TEL:(010)68476606】

回书目   上一节   下一节
点赞 0
分享:
大家都在看
猜你喜欢

订阅专栏+更多

活学活用 Ubuntu Server

活学活用 Ubuntu Server

实战直通车
共35章 | UbuntuServer

216人订阅学习

Java EE速成指南

Java EE速成指南

掌握Java核心
共30章 | 51CTO王波

83人订阅学习

Mysql DBA修炼之路

Mysql DBA修炼之路

MySQL入门到高阶
共24章 | 武凤涛

468人订阅学习

读 书 +更多

网管员必读—服务器与数据存储

《网管员必读—服务器与数据存储》全面、系统地介绍了在中、高级网络管理和网络工程实施中两个重要方面的主流技术和应用:硬件服务器和数据...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊

51CTO服务号

51CTO播客

博聚网