|
|
51CTO旗下网站
|
|
移动端

3.2.1 语言的本质

《实感交互:人工智能下的人机交互技术》第3章用户界面中的声控式交互技术,本书将深入讲解基于触摸、手势、语音和视觉等自然人机交互领域的技术、应用和未来趋势。本节为大家介绍语言的本质。

作者:温秀颖 译来源:机械工业出版社|2019-02-06 17:58

3.2 语音识别 

3.2.1 语言的本质

语言属人类独有,能让人不费力地交流复杂的思想和感觉。因此“话音通道”才会被高度优化以促进人类完成交流任务。组成有声话语的小微语言元素叫作音素,它是语言中最小的单位,一旦改变,单词或者表达就会跟着变化。音素的物理表达就是“通话”,但语音信号不只是一系列拼接的声音,像摩尔斯电码。我们的发声器官(舌、下颚、唇)以难以置信的速度和精心的编排在变换着共振结构。我们的声带可以每秒打开和闭合100~300次,生成叫作基频(F0)的信号,它激发声道共振,从而发出一个高频宽的声音(例如0~10kHz)。

有时,共振是混乱的噪声在声道收缩时产生的,例如S的发音。一个音素的声学表达不仅是不固定的,而且在现实中会受到前一个和下一个预期的音素影响———这种现象称之为协同发音。当说话者根据当前情况和听者的需求调整自己的话语时,其他的变化就会产生。由此导致的语音信号反映了这些在复杂且快速变化的信号中运动的发音器官和声源。图32展示了一个简短话语的语音谱图。


语音识别的准确性和性能的进步是科学和工程学研究人员共同努力的结果,因此最先进的识别器包括了许多精心优化设计的元件。1990~2010年间,大多数最先进的系统是相似的,并在逐步的加强和改进。接下来我们要介绍一种“标准” 语音识别系统的基本组成部分以及一些最近的发展。

能利用标准语音识别器解决的问题都符合贝叶斯规则(Bayes’rule):

因此,假设给定语言结构,大多数的语音识别器的目标就是通过声学观测得出的最高的组合概率来找到词组序列。

如图33所示,一个标准语音识别系统图可以很好地反映到这个公式中。

声学概率的评估是由声音前端和一个声学模型处理的,而词组序列的概率评估则是由一个语言模型处理的。找到得分最高的词组序列的代码称为搜索组件。虽然这些模块在逻辑上是分开的,但是它们在语音识别中的应用是高度相互依赖的。


喜欢的朋友可以加入官方的读书群

51CTO读书频道二维码


51CTO读书会第9群:808517103

【责任编辑:book TEL:(010)68476606】

回书目   上一节   下一节
点赞 0
分享:
大家都在看
猜你喜欢

订阅专栏+更多

活学活用 Ubuntu Server

活学活用 Ubuntu Server

实战直通车
共35章 | UbuntuServer

216人订阅学习

Java EE速成指南

Java EE速成指南

掌握Java核心
共30章 | 51CTO王波

83人订阅学习

Mysql DBA修炼之路

Mysql DBA修炼之路

MySQL入门到高阶
共24章 | 武凤涛

468人订阅学习

读 书 +更多

基于Project2003的项目管理

本书的上一版本《基于Project 2002的项目管理》上市以后得到了读者的欢迎,为了更好地将Project 2003新版本的应用介绍给读者,我们重新进行...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊

51CTO服务号

51CTO播客

博聚网