|
|
51CTO旗下网站
|
|
移动端

3.13 结语

《实感交互:人工智能下的人机交互技术》第3章用户界面中的声控式交互技术,本书将深入讲解基于触摸、手势、语音和视觉等自然人机交互领域的技术、应用和未来趋势。本节为结语。

作者:温秀颖 译来源:机械工业出版社|2019-02-07 17:01

3.13 结语 

语音驱动的NLU交互界面涵盖了广泛的设备,包括了手机、平板电脑、电视机、汽车和信息咨询台。用户与它们的交互已经成为了每日例行的活动。这些界面使安装在设备上的复杂功能变得更简单自然。相对于发出一系列细微的命令,用户可以以越来越自然的语言表达他们的综合意图,而由系统决定需要执行的步骤。这种自然语言的互动在许多环境中正在变得愈发实用:街道上、汽车内、客厅里以及新的装置上。

所有这些新的功能都指向一个问题:如何能最佳的把自然语言理解植入今天的视觉界面呢?有一系列多样的途径,包括“虚拟助手” 这类选项。2013年是该技术的丰收之年,我们见证了诸如苹果Siri、三星S-Voice、声龙Assistant和谷歌Now的诞生,以及市场上将近60种的类似产品。

虚拟助手可以被视为是单独的个体,它可以进行对话,还有自己的个性。它可以阐释用户的输入,并协调用户、设备本地用户界面和一系列(非)自带识别应用。某些情况下,助手甚至可以用自己的UI对获得的信息进行重新整理,从而承担起了放大和过滤网络信息的任务。

另外一种设计也许可以称为“环境NLU”,它保持了本地设备的外观和应用界面的使用体验,但嵌入了语境敏感的NLU。通过与该界面对话,用户可以获取信息,也可以打开并控制熟悉的应用。系统在需要完成多轮讨论或消除歧义时与用户对话。相对于在事件中占据主导,这类助手的特点是低调、高效和灵活。可能的情况下,它会基于一个单一话语指令完成任务而不会限制用户可以获取信息的渠道。它的目标并不是帮助用来解决现有UI的短板,而是致力于成为一个改进UI的内在组成部分。

不管哪种,语音和语言理解现已被视为一个新的基础元件———能获取和控制位于设备或云服务的无形资产,为传统视觉UI增加了一个新维度。往后若干年,随着工程师不断地对体验结构进行更新再造,我们必将目睹这些新维度的积极扩展和对当前“缩小桌面”现象的快速修改。

语音革命的进程因为多种组件技术的持续发展而不断推进,近几年在许多系统只是“简单运转”的领域进行着持续的推广和改进。性能上的不断突破主要归因于许多互补领域的改进,包括:

语音识别技术,特别是DNN。

信号获取增强。

改进的TTS和声音生物计量建模。

结合结构性方法的意义抽取和机器学习。

对话互动、概率规划识别、知识呈现和推理。

问题解答。

许多因素促成了这些进步:

可用运算能力的提高,包括特殊目的的计算设备。

可用训练语料库的规模。

数据统计建模的改进。

数以千计人的多年的研发努力。

除了这些进步之外,我们仍旧面临着许多挑战。或者积极地说,我们期待在未来数年取得进一步的发展。构建有着深层理解人类语言能力的对话代理人既是挑战也是我们的承诺。


喜欢的朋友可以加入官方的读书群

51CTO读书频道二维码


51CTO读书会第9群:808517103

【责任编辑:book TEL:(010)68476606】

回书目   上一节   下一节
点赞 0
分享:
大家都在看
猜你喜欢

订阅专栏+更多

活学活用 Ubuntu Server

活学活用 Ubuntu Server

实战直通车
共35章 | UbuntuServer

216人订阅学习

Java EE速成指南

Java EE速成指南

掌握Java核心
共30章 | 51CTO王波

83人订阅学习

Mysql DBA修炼之路

Mysql DBA修炼之路

MySQL入门到高阶
共24章 | 武凤涛

468人订阅学习

读 书 +更多

设计模式:可复用面向对象软件的基础(双语版)

《设计模式:可复用面向对象软件的基础》(双语版)是引导读者走入软件设计迷宫的指路明灯,凝聚了软件2018送彩金的娱乐网站界几十年的设计经验。四位顶尖的...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊

51CTO服务号

51CTO播客

博聚网