|
|
51CTO旗下网站
|
|
移动端

1.3.5 多模态交互

《实感交互:人工智能下的人机交互技术》本书将深入讲解基于触摸、手势、语音和视觉等自然人机交互领域的技术、应用和未来趋势。本节为大家介绍多模态交互。

作者:温秀颖 译来源:机械工业出版社|2019-02-03 19:45

1.3.5 多模态交互

人类感知和交互常常是多模态的———我们使用所有的感官,结合由其生成的神经信号来理解周围物理世界并与之交互。比如,我们用双耳声频信号和频率提示来定位声音的来源,随后用眼内的聚合和调节系统把双目视线指向该声源,并把物体反射出的光线聚焦于我们的视网膜上,以实现视听同步。同样在其他的场合中,我们的听觉感知也可能跟踪视觉感知并使其增强。例如在逛公园的时候,我们也许先看到一只鸟,然后注意到它的叫声。在真实环境中,我们运用多模态互动相互交互。根据意图和情境,我们用碰触、手势、声音、眼神、面部表情和感情的集合来本能地与人类同胞交流。

1976年,McGurk和MacDonald发表原创论文并形象地命名其为《听唇看音》(HearinLipsandSeeingVoices)。文中他们叙述了偶然发现的视觉和听觉的互动,也就是后人称的“麦格克效应”[40]。该研究显示,当我们听到说话人发出的声音伴随着和其他不同的声音一致的视觉信号时(相当于配音过程),会导致我们感知到另一种声音的存在。我们感知过程中的视听一体的情形在表演腹语口技时也非常明显,同样的效果还体现在剧院,我们产生了演员在屏幕上说话的幻觉,其实不过是装置在场所其他方位的扬声器发出声音。神经生理学证据已经显示,当我们使用多重感官系统来理解周围的环境时,来自一个感知传感器的神经信号可以促进、覆盖或修改来自另一个传感器的信号。不同的传感区域在大脑中互相作用,为连接脑内视觉、听觉和触觉的接收区域提供了实验依据。

因此,自然、本真的人机交互方案必须是多模态的。结合语音识别与位置感知的早期研究结果在Bolt于1980年发表的论文中有所记录。他指出了人机自然交谈的可行性,比如“放在那里”“变成一颗蓝色的大钻石” “称……作日历” 等等[42]。Quek写道:“为了让人机交互能够达到人际交流的透明水平,我们必须明白对话互动的现象学和其他能够帮助我们理解的可抽取的种种特征。”作者还论述了使用语音和手势作为交际的共同表达形式。

第9章里,LaViola等人评述了人机交互的多模态感知界面,探索了合并多种输入模态以构建自然交流的可能性。该章研究了主导交互类型,各层次多模态集合的可用性,以及调试这些模态的途径以期达到逼真的自然交互。解决多模态界面方案的人为因素问题往往决定了内置多模态交互功能的新设备、新系统能否取得商业上的成功。除了之前章节提到的输入模态(如触摸、手势、语音、凝视和面部表情) 之外,本章还发起了关于通过脑电图学和肌电图学来侦测肌肉活动的讨论,以期实现整合新兴的人机界面技术。

科幻小说作者一直在幻想着一个人能用脑电波控制电脑、机器和系统的未来世界,在那里人们只需要“心想”就能“事成”!尽管那样的未来还尚未实现,但是最近在人脑界面技术的发展已经显示了人们具有通过思考生成大脑信号来控制和操纵显示内容的能力。该领域的研究一直在持续,力争可以创造出前所未有的交互方案和应用,以进一步丰富未来交互显示系统。LaViola等人在第9章讨论了这种在多模态交互方案内的人机界面整合。

除了与屏幕内容进行多模态交互,在面控和声控用户识别方面的突破也有望用自然的多模态生物计量验证取代原有的密码身份验证。在日常的社交生活中,我们使用面部、声音和基于自然人辨识方案的行为特征来建构与我们交流的人群的身份。然而,电脑识别其用户的能力却仍然很大程度上限制于密码或口令牌。随着计算系统的普及与不断融入我们的社会生活,这种认证方式将不再充分适用。

Poh等人在第10章综述了多模态生物计量,探讨了包括技术设计和可用性的问题以及该领域的近期发展。作为另一个多模态感知的范例,我们常常在相互交流的时候使用面部表情的线索来理解口头话语。同样的字,以不同的面部表达方式道出可能会指代完全不同的事物。面部表情可以通过具体的脸部姿态下意识地补充某种交流需要,或是自然而然地显露某种内心的感觉和情绪。其他观察者对说话人的面部表情的揣测往往取决于当时的语境。

150多年以前,Duchenne以研究肌肉运动如何产生多种面部表情为目的对受试人进行了实验。图113是他的研究成果的一个例子,表现了通过电导探针诱导脸部肌肉收缩而产生的一系列面部表情。这是使用了新发明的相机设备记录下来的[45]。近几十年来,数码相机、高级图像处理技术和计算机资源的普及使学者有机会对自然化的面部表情开展研究。就在最近,3D传感和处理技术越来越多地用于更为高级的自动化面部表情识别。关于视控表情识别技术的发展在第4章探讨视觉传感和肢体动作交互的部分将会提及。


喜欢的朋友可以加入官方的读书群

51CTO读书频道二维码


51CTO读书会第9群:808517103

【责任编辑:book TEL:(010)68476606】

回书目   上一节   下一节
点赞 0
分享:
大家都在看
猜你喜欢

订阅专栏+更多

活学活用 Ubuntu Server

活学活用 Ubuntu Server

实战直通车
共35章 | UbuntuServer

216人订阅学习

Java EE速成指南

Java EE速成指南

掌握Java核心
共30章 | 51CTO王波

83人订阅学习

Mysql DBA修炼之路

Mysql DBA修炼之路

MySQL入门到高阶
共24章 | 武凤涛

468人订阅学习

读 书 +更多

开源osCommerce 轻松架设专业电子商务平台

osCommerce是一款免费的、开放源代码的专业电子商务解决方案。本书以通俗易懂的语言向读者展示了该软件强大的功能和简易的操作方法,主要内...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊

51CTO服务号

51CTO播客

博聚网