|
|
51CTO旗下网站
|
|
移动端

3.2.2 声学模型和前端模式

《实感交互:人工智能下的人机交互技术》第3章用户界面中的声控式交互技术,本书将深入讲解基于触摸、手势、语音和视觉等自然人机交互领域的技术、应用和未来趋势。本节为大家介绍声学模型和前端模式。

作者:温秀颖 译来源:机械工业出版社|2019-02-06 18:01

3.2.2 声学模型和前端模式

前端模式:输入的语言被数字化,并转化成一个矢量序列,它可以找到由一个声学前端输入的整体频谱。多年来,标准的前端模式都是用梅尔频率倒谱系数(MFCC) 的矢量来表示语言的每一个帧(大概25ms)。该表达被选择呈现一帧的整个频谱包络,但抑制了基本频率的谐波。最近几年,其他的表达式流行了起来。

声学模型:在一个标准系统里,语言被建模成词组序列,词组则是音素序列。但是声学表达是协同发音的结果,声音和词组里的每一个音素都相互依赖。虽然语境依赖性可以跨越几个音素或音节,许多系统仍采用“三音子” 估算近似音位,三音子即音素受到的左、右语音语境的限制条件。因此,一个词组序列是通过三音子序列的表达式来体现的。这里有许多可能存在的三音子(比如503),当中又有很多极少发生。所以标准的技术就是用决策树让它们聚集起来,然后为聚焦的集合建立模型,而不是针对每个三音子。

当一个单词包含了一个特别的三音子时,声学特征可以建成隐马尔科夫模型(HMM)。,见图34。HMM是简单的有限状态机(FSM),包括状态、转换和转换概率。而且每个状态都与一个含有可能的前端矢量的概率密度函数(PDF)相关。

PDF是常用高斯混合模型(GMM) 表达式的体现。GMM是已经分析过的、易受训的PDF,它能很好地估算任意PDF的结构。一个GMM是高斯函数的加权和;每个高斯函数可以写作:


喜欢的朋友可以加入官方的读书群

51CTO读书频道二维码


51CTO读书会第9群:808517103

【责任编辑:book TEL:(010)68476606】

回书目   上一节   下一节
点赞 0
分享:
大家都在看
猜你喜欢

订阅专栏+更多

活学活用 Ubuntu Server

活学活用 Ubuntu Server

实战直通车
共35章 | UbuntuServer

216人订阅学习

Java EE速成指南

Java EE速成指南

掌握Java核心
共30章 | 51CTO王波

83人订阅学习

Mysql DBA修炼之路

Mysql DBA修炼之路

MySQL入门到高阶
共24章 | 武凤涛

468人订阅学习

读 书 +更多

网管员成长手记——网络组建、配置与应用

本书主要以“网管员的成长经历”为线索展开,虚拟出一个“新手”网管员的工作和学习环境,将网管员的成长分为4个阶段,以“网管入职充电→...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊

51CTO服务号

51CTO播客

博聚网