|
|
51CTO旗下网站
|
|
移动端

3.2.4 语言模型

《实感交互:人工智能下的人机交互技术》第3章用户界面中的声控式交互技术,本书将深入讲解基于触摸、手势、语音和视觉等自然人机交互领域的技术、应用和未来趋势。本节为大家介绍语言模型。

作者:温秀颖 译来源:机械工业出版社|2019-02-06 18:06

3.2.4 语言模型

语言模型能够计算不同单词序列的概率,并帮助识别系统指出输入话语最可能正确的含


义。运用于语音识别系统中的语言模型可以分成截然不同的两种类型:语法型语言模型和随
机型语言模型。

语法型语言模型允许一些单词序列,但并非全部。这些语法往往取决于应用程序,支持与某些特定任务相关的话语,比如预约餐厅或发布电脑命令。这些语法规定了准确的单词序列,用户须按照这些单词序列才能指示系统行为。比如,一个预约系统的语法可能可以识别像“找一家附近的中国餐厅” “七点预订两个人的餐位”,或是“给我看看菜单”。相同的语法将无法识别诸如“辣香肠披萨”“餐厅运营的经济学分析”,或是“无色的绿色思想愤怒的沉睡”。

语法能够辨识的一组单词序列是通过诸如有限状态机或无语境语法的形式语法描述的。这些语法往往以形式体系编写,像语音识别语法规范(SRGS)(见参考文献)。虽然建构简单的范例语法并不难,但是编写一个能囊括用户所有可能输入的语音的语法体系就不简单了。所以,你可能会说“附近的中餐馆” “请找一家附近的中国餐厅” “我想吃中国菜”,或“哪里有卖广式点心的”,所有这些句子的意思是一致的(对一个订餐应用程序来说),但是编写一个能包含所有选项的语法任务却异常艰巨,因为用户的表达总是各种各样的。

随机型语言模型(起初用于脱稿听写)估算了任意单词序列的概率(有些出现的概率会比其他多得多。)这样,“中国餐厅”就是一个合理的概率;“餐厅中国”相比起来的概率就小些;而“附近餐厅中国的一个找” 的概率就更小了。编写一个语法型语言模型以覆盖所有可能的英文输入的尝试至今没有成功:因此一般口头命令应用程序更青睐随机型语言模型。人们发现使用随机型语言模型来设计一个实用具体的程序语言模型根本没那么复杂,NLU处理模式还能针对某个具体的应用来设计。

随机型语言建模的宗旨是计算P(W~)的近似值,内容定义如下:

语音识别技术的一个惊人突破是一个简单的近似值算法(三元近似值) 就能达到不错的效果:

三元近似值认为句子中下一个可能出现的单词仅仅取决于前两个单词(并且一个N元文法模型是对更长跨度单词序列的一般化概括)。无论从科学还是语言习惯上来说,这都是不正确的:许多话语表达都超过两个单词[7]!但是这个近似值在语音识别上的表现却非常好。


喜欢的朋友可以加入官方的读书群

51CTO读书频道二维码


51CTO读书会第9群:808517103

【责任编辑:book TEL:(010)68476606】

回书目   上一节   下一节
点赞 0
分享:
大家都在看
猜你喜欢

订阅专栏+更多

活学活用 Ubuntu Server

活学活用 Ubuntu Server

实战直通车
共35章 | UbuntuServer

216人订阅学习

Java EE速成指南

Java EE速成指南

掌握Java核心
共30章 | 51CTO王波

83人订阅学习

Mysql DBA修炼之路

Mysql DBA修炼之路

MySQL入门到高阶
共24章 | 武凤涛

468人订阅学习

读 书 +更多

Java编程思想 第4版

本书共22章,包括操作符、控制执行流程、访问权限控制、复用类、多态、接口、通过异常处理错误、字符串、泛型、数组、容器深入研究、Java I...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊

51CTO服务号

51CTO播客

博聚网