|
|
51CTO旗下网站
|
|
移动端

3.1 引言

《实感交互:人工智能下的人机交互技术》第3章用户界面中的声控式交互技术,本书将深入讲解基于触摸、手势、语音和视觉等自然人机交互领域的技术、应用和未来趋势。本节为引言。

作者:温秀颖 译来源:机械工业出版社|2019-02-06 17:55

第3章 用户界面中的声控式交互技术

AndrewBreen,HungHBui,RichardCrouch,KevinFarrell,

FriedrichFaubel,RobertoGemello,WilliamFGanongIII,TimHaulick,RonaldMKaplan,CharlesLOrtiz,PeterFPatel-Schneider,HolgerQuast,AdwaitRatnaparkhi,VladSejnoha,JiayingShen,PeterStubley,PaulvanMulbregt

Nuance通信公司

3.1 引言

基于自然语言理解的语音识别和合成是现代移动通信设备用户界面(UI) 不可或缺的部分。近年来,这些技术从配合文本输入、支持有限命令和控制的“附加程序” 已经发展成各种主流移动消费设备的核心功能,如语音驱动智能手机系统。有评论甚至把UI语音识别和自然语言的理解定义为用户界面的“第三次革命”,第一次和第二次分别是鼠标输入的图形用户界面和触摸输入的触控感知界面。

这些新技术名声大噪的主要因素有两个:一是它们快速改进的性能;二是它们克服现存“收缩桌面”式的移动UI固有缺陷的能力。后者主要通过从有声语言输入中精准地推断用户意图。

伴随各种移动设备使用量暴增的是用户对“内容”、功能、服务和应用方面同样急速增长的需求。海量的信息变得愈发难以用现有的可视移动桌面识别、寻找和管理;信息很容易淹没在层级文件夹、几十种甚至几百种应用图标、应用屏幕和各种菜单中。

通常,执行单个触摸屏装置指令需要多个步骤。例如,一个简单的银行转账事项需要用专门的移动应用程序来回切换十几个应用屏幕。

不同设备的特定用户界面中存在很多的变化性,使得可用性问题变得更加严重。现在移动设备有许多种“形态因素”:有大屏和虚拟键盘的平板电脑,有为眼手忙碌而无暇操作提供便捷的车载装置界面,有无键盘无定点设置的电视机,也有各种“可穿戴的” 装置(例如智能眼镜和手表)。通过这些完全不同的界面,用户正越来越多地获取相似的服务———搜索信息、查收邮件、浏览社交媒体、定位导航以及欣赏音乐和视频等。

在这样的背景下,语音识别(VR)和自然语言理解(NLU) 代表了一个强大的自然控制机制,它可以穿过多重视觉层次、中间应用或网页。自然语言的表达紧凑地对大量信息进行了编码。当你说“发条短信给罗恩,说我要迟到10分钟”就能暗示哪个应用程序应该先启动、要把信息发给谁和发送什么信息,而不用明确地提供所有信息和每个步骤。同样的,你可以给电视下令:“播放昨晚保存的女高音歌曲”,要比使用常规界面、横贯多层菜单结构更简单。这些功能的实现能够创造一个新的UI:一个可以通过对话与用户互动并提供强大功能的虚拟助手(VA)。

在以上例子中,用户开始操作时无需先点击电子邮件的应用程序图标,只要用语音和自然语言就能找到并操纵资源———无论它们是显示在设备屏幕上还是存储在设备或云端(Cloud)中。这种融入其他服务的方式有效地拓宽了传统界面应用。

通过了解用户的意图、喜好和过往的交流记录,包含了语音和自然语言的界面在解决问题时可以绕过中间搜索引擎结果页,直接定位到认为对用户有用的目的页面上去。例如,某位用户的产品查询将直接在页面中显示他/她平时喜好的购物网站。

换言之,这样一个系统可以直接从结构化数据源或非结构化数据源中提取想要的信息,通过自然语言生成(NLG)来构建答案,然后通过语音合成进行反馈。

最后,那些很难用点选式界面明确说明的指令在语音界面上是容易表达的,例如,写一个以其他事件为条件的通知:“快到咖啡店的时候通知我。”

在符合用户需求的条件下,还可以用其他方式减少一些步骤。用户甚至可以自然地对设备说出自己的需求而无需开启设备。在一种称为“无缝唤醒”的模式下,装置运用节能算法的数字信号处理器(DSP),能够持续地接收到重要事件的发生。当检测到有意义的输入时,装置会激活再处理模块以确定是来自主人的有效命令(用生物计量法确认身份),最后执行命令。

运用自然语言的前提条件是语音识别能在大量的用户和嘈杂的环境中准确的工作。语音识别在过去几年里发展显著,这主要归功于以下几方面:一个更加强大的计算基础(包括专门用于语音识别的芯片结构);高速快捷的连接能力———接入云计算甚至是最小的移动平台;新算法和建模技术的发展(包括最近兴起的神经网络模型);利用海量数据库训练强大的统计模型。

语音识别同样也利用了越来越复杂的信号采集技术,例如利用可控的多话筒波束形成和杂音消除运算来提高语音辨别在嘈杂环境里的准确率。在以车内和客厅内为代表的高噪声、多语音源和常有娱乐背景声的环境下,这种处理更有价值。

近期从自然表达中抽取意义的技术发展很快,主要得益于以下三个互补的方法:

能从数据中发现规律的机器学习。

明确的语言“结构”模式。

明确知识表现(本体)的形式,能把已知关系和实体预先编码。

就像在语音识别中一样,这些算法是自适性的,并且都从每次互动中适应、学习。

简洁概括的表达本身是很含糊的,但是人类却可以通过背景环境获取许多信息。同样的,以算法的方式抽取正确信息要求应用一个通用的模型以及一个能够体现交互背景和历史的表达式,还包括由其他传感器和元数据提供的其他信息形式。在信息不足导致无法消除歧义时,语音和自然语言界面可能会与用户进行对话交流,获取或澄清信息。

对话或会话管理最早是从“系统主导”形式发展起来的,“系统主导”限制用户只能回答某个应用程序(通过视频或者合成语音)设置好的问题。但现在已经发展成更具灵活性的“混合主导”形式,让用户可以积极主动地提供相关信息。最先进的形式推理方式———传统人工智能(AI)的范畴———可以消除每次互动需要的预定义,并动态地推断出目标和计划。

早期的人工智能处理十分生硬,而现在的系统依靠的是既灵活又稳定的方法应对模糊表达。当无法提供准确的回应时,它也会给出最接近的解决方法。这种高级系统的目标就是能够成功地掌握所谓的“元任务”,例如,仅仅只要输入“最后一个会议后在‘吉普赛人私房菜’预订一个餐位,通知汤姆和布莱恩在那里等我”,而不是让用户顺序执行基础的“微”任务,例如确定日期和订桌。

因此,我们认为“语音界面” 的宏观内涵实际上就是它是智能系统的重要组成部分,该系统包括:

通过多种方式和用户互动。

理解语言。

能对话和推理。

利用语境和了解用户喜好。

拥有专业知识。

解决高级任务。

在现实环境里具有稳定性。

如图31所示,该系统的元素通常分布在客户端和云服务上。


这样做的原因包括优化计算、增加服务的可获取性和处理延迟,以及为用户提供在多对象、多元特性和功能的环境中始终如一的体验。

分布式的结构体系可以进一步使用户数据从多个设备中聚合,这样就可以不断改进服务器、具体设备识别和NLU模型。而且,存储在中央存储器里的交互历史能使用户无缝衔接其开始交互的设备与其完成交互的设备。

以下各节将详细描述这些概念和基本技术。


喜欢的朋友可以加入官方的读书群

51CTO读书频道二维码


51CTO读书会第9群:808517103

【责任编辑:book TEL:(010)68476606】

回书目   上一节   下一节
点赞 0
分享:
大家都在看
猜你喜欢

订阅专栏+更多

活学活用 Ubuntu Server

活学活用 Ubuntu Server

实战直通车
共35章 | UbuntuServer

216人订阅学习

Java EE速成指南

Java EE速成指南

掌握Java核心
共30章 | 51CTO王波

83人订阅学习

Mysql DBA修炼之路

Mysql DBA修炼之路

MySQL入门到高阶
共24章 | 武凤涛

468人订阅学习

读 书 +更多

Linux命令、编辑器与Shell编程

本书是目前所能找到的最实用、最全面的Linux指南和参考手册,也是唯一一本提供以下全部内容的书籍: 更好更实用的示例覆盖了实际工作中需...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊

51CTO服务号

51CTO播客

博聚网