|
|
51CTO旗下网站
|
|
移动端

3.5.1 稳健语音识别

《实感交互:人工智能下的人机交互技术》第3章用户界面中的声控式交互技术,本书将深入讲解基于触摸、手势、语音和视觉等自然人机交互领域的技术、应用和未来趋势。本节为大家介绍稳健语音识别。

作者:温秀颖 译来源:机械工业出版社|2019-02-07 16:11

3.5 稳健语音识别的信号强化技术
 
在真实场景里的语音识别应用,接收的语音信号通常会夹杂许多干扰有声信号,比如背景噪声、扬声器发声、冲突声音或回响等。在麦克风离说话人较远的时候尤其如此,比如,在车里或家里的应用。最糟糕的情况是干扰的信号甚至超过目标信号,使语音识别器的性能严重降低。语音技术作为人机交互的一项基本高效工具正变得日益重要,这使得在恶劣环境下的系统抗噪能力成为影响语音对话系统的核心因素。

3.5.1 稳健语音识别

抗噪性可以通过调整语音识别过程来实现,或者通过一个专用的语音增强前端。当前的系统通常使用两者的结合。

稳健语音识别的前沿技术通常包括使用诸如MFCC或神经网络这样的抗噪特征,并用噪声夹杂的语音数据来训练声学模型,这些数据往往代表了在正常应用中经常出现的各种噪声。但是由于声学环境纷繁复杂,训练不可能涵盖所有的噪声情景。于是人们发明了若干种根据噪声环境快速改编声学模型参数的方法,这些噪声短暂地出现在输入信号中。例如,该技术已经成功地使长距离对话声音在变化的回音环境中保持稳健。

语音增强算法可以大概分成单通道法和多通道法。由于各种噪声来源和环境的具体统计属性,并不存在一个涵盖所有信号和干扰的统一解决方案。根据应用程序,语音增强前端常常结合多种方法。最普遍的是把单一通道噪声和诸如消噪声、空间滤波的多通道技术结合起来使用。


喜欢的朋友可以加入官方的读书群

51CTO读书频道二维码


51CTO读书会第9群:808517103

【责任编辑:book TEL:(010)68476606】

回书目   上一节   下一节
点赞 0
分享:
大家都在看
猜你喜欢

订阅专栏+更多

活学活用 Ubuntu Server

活学活用 Ubuntu Server

实战直通车
共35章 | UbuntuServer

216人订阅学习

Java EE速成指南

Java EE速成指南

掌握Java核心
共30章 | 51CTO王波

83人订阅学习

Mysql DBA修炼之路

Mysql DBA修炼之路

MySQL入门到高阶
共24章 | 武凤涛

468人订阅学习

读 书 +更多

安全模式:J2EE、Web服务和身份管理最佳实践与策

本书全面阐述Java应用安全的基本知识并介绍一种强大的结构化安全设计方法;介绍独立于厂商的安全架构;列出详细的评估核对表以及23种经过实...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊

51CTO服务号

51CTO播客

博聚网