|
|
51CTO旗下网站
|
|
移动端

1.2 人类感知和理解 

《实感交互:人工智能下的人机交互技术》本书将深入讲解基于触摸、手势、语音和视觉等自然人机交互领域的技术、应用和未来趋势。本节为大家介绍人类感知和理解。

作者:温秀颖 译来源:机械工业出版社|2019-02-03 19:16

1.2 人类感知和理解 

本书伊始就提出实施人机交互界面方案的最终目标是让用户获得自然、本真和沉浸式的互动体验。虽然目前技术的局限性让设计师和工程师不得不做出妥协,仅能实现某些特定产品的部分目标,但是我们一直在实现总体目标的方向上取得进步。

这里需要进一步阐明一下。所谓“自然”,意思在于运用我们的自然机能与机器实现交流和互动。我们运用多感官、多模态的界面方案来理解周围环境和相互交流,将包括声音、表情、凝视、手势和肢体语言、触觉、嗅觉和味觉等在内的多模态互动无缝衔接。如此,创建自然界面就能使真实的生活体验融入人机互动之中。

所谓“本真”,意指该界面依靠我们多年养成的社交习惯而设计,仅要求用户使用最少的(理想是不需要任何)学习成本就能与机器进行交流。

所谓“沉浸式”,是一种真实世界与虚拟世界边界模糊化的体验,其中电脑或机器成为我们身体与大脑的延续,帮助我们完成任务。这是个很高的要求,需要几十年的持续研发才能接近这些目标。我们努力了解生动逼真的人机界面和交互方案,就能使我们以史为镜,了解人类———毕竟我们是“人机互动”这个词组的第一个字!

我们人类已经进化成了高等交际物种,受助于一个精干的大脑和一系列复杂的感知器官,包括丰富的视觉感知系统、听觉能力、接触敏感的皮肤和触觉感知,还要算上经过鼻腔和舌头传感的气味和味道的化学感知。超过一半的人类大脑致力于处理感知信号,让我们能够认识太空、生命和周围的物体,也让我们在自然、本真的感知情境中彼此互动。

让我们深入探讨一下我们的感知传感和推理过程,即眼睛和视觉感知过程,耳朵和听觉感知过程,皮肤和触觉感知过程。仅仅专注于这三种感知模态的一个原因是我们与物理世界交互的实质过程主要运用到这些机制,而且我们也将看到,这些机制的功能能够依靠高新技术在电子设备中加以模仿,以便设计和制造高级互动显示器和系统。在人机交互中实现嗅觉和味觉机能当然最好,不过还得等技术进一步发展。

让我们从神经生理学角度探讨自然人机界面与交互显示系统,如图11所示。这个交互过程可以分解为三个主要过程:感知,理解和辨识,以及行为。从人的视角看,感知过程包括:搜集显示器视觉产出———通过光波介入人眼;说话人听觉产出———以声波形式介入人耳;感觉屏幕的表面———通过用指尖碰触。这些感知传感器将物理刺激通过传导过程转换成神经信号,后被传递到大脑皮层,也就是我们能够理解到“看” “听” 和“触” 的发生,随后辨识与思考相继启动。

根据感知和辨识过程的结果,我们将指令我们的身体行为。比如,我们把视线聚焦到显示器上想关注的元素上,指引手指触摸并启动屏幕上的具体内容,调整我们对声音产出的听觉注意力,摆出一个合适的面部表情,甚至用我们的手指和手来做一个动作。

我们首先综述一下视觉感知过程。我们仅关注与随后讨论密切相关的操作交互显示器的内容,并把其他更为详细介绍人类感知[7,8]的读物介绍给有兴趣的读者。人眼是人类进化的奇迹,特别体现在其构造上的极端复杂性,功能的有效性及其在连接感知世界与大脑枕叶视觉皮层方面所发挥的核心作用。如图13所示,人眼和相机的某些核心结构十分相似,都是通过透镜系统把外景光源聚焦在眼部后方的视网膜上成像;视网膜周围含有称为感光器的感光细胞。眼部有两种类型的感光体,即有色觉的视锥细胞和无色觉的视杆细胞,后者能把光转换为神经信号。

这台相机的分辨率以及和处理器通信的带宽如何呢?视网膜包含大量的感光器———大约每只眼睛有800万个视锥细胞和12000万个视杆细胞———然而视觉体系却能够巧妙地发出景物在空间和时间上变化的信号,而不是由感光器探测到的绝对光强,以保持眼睛和大脑的通信带宽降到实际水平上。

当我们把目光投向一个物体且图像形成于视轴周围的一个相对较小的区域时,中心视觉的视敏度是最高的。这是因为视锥感光器最集中地分布于视网膜内的一个小区域———中央凹,这些感光器映射到视觉皮层内的一个比视网膜其他部分要大的区域。另一个相机的重要特质是光敏的动态范围,人眼的视觉跨径可达10个数量级,远远超过了现代数码相机的能力。

每只眼睛都是一部优秀的相机,像这样的相机我们拥有两部。人类的视觉系统包括3D和深度理解能力,有着双目成像方式以及其他诸如动态视差、视差映射和焦距等视觉线索,这些能让我们在3D空间内十分轻松地找到方向并于各种物像交互。双目成像已经普遍演化成大多数生物系统的特征。近期的化石研究论证其早在5亿多年前节肢动物生活的早寒武纪时代就已经存在[9]。强大的视觉系统的出现被认为是引发寒武纪大爆炸变革的导火线[10]。部分重叠的横向位移视野导致了“双目视差”,也就是由单眼捕捉到物体相对于另一只眼睛发生了横向位移。我们随后将会了解到,双目视差与观测物到观察人的距离成反比。

有这样的视觉系统帮助理解距离,猎物就更容易发现逼近的猎人而逃生,猎人也有更好的时机三角测距猎物的位置并实施捕猎。双目视觉因此被推定为生物进化成功的推动力,也是最早的哺乳动物的特质之一。时至现代,我们运用我们复杂的双目视觉系统来与3D世界互动。图13也简化地展示了将眼睛连接到视觉皮质的感觉传导路径。

接着,我们来思考一下听力感知的重要元素,包括耳朵和各个听辨过程。恰如眼睛,人的耳朵也有着精致的构造以及像声音传感器这样令人惊叹的功能。我们天然的麦克风———耳朵———能够感知超过12个数量级的声音强度以及3个数量级的音频(20~20000Hz)!如图14所示,耳廓决定了气流携带声音信号进入含有耳鼓膜的耳道的方向。压力振荡经由中耳组织———锤耳、砧骨和镫骨得以放大,这些部位是人体拥有的最小骨头,英文中可分别用意为锤子(hammer)、铁砧(anvil)和马镫(stirrup)的单词表示,暗指它们是如何放大并向内耳部分传递声音信号的。最后,振荡声波被转经由神经冲动转换成神经信号,更具体地说是由位于呈收敛螺旋状的耳廓部位的听毛细胞转换的。这些神经信号随后发射到位于颞叶的大脑听觉皮层并被处理成能够感知的信号。

正如人眼一样,我们还有一对能在频率信号之外启动双声道感知方案的天然“麦克风”,它可以在3D空间内准确定位声音的来源。双耳3D感知以及极高的声压灵敏度对我们的进化过程十分重要,在日常生活中,它也对帮助我们在3D物理世界的穿梭和交流起到了不可或缺的作用。图14简单展现了位于人耳与大脑听觉皮层之间的神经分布路径。

最后,我们再看看触敏性和触觉感知过程。触觉的感知过程又称皮肤感知,开始于皮肤内的机械性感受器,它们能够在相应的皮肤区域感受到因接触而产生的机械压力。图15描绘了4种主要的机械性感受器。视觉(眼睛) 和听觉(耳朵) 感知器官位于颅骨内,具有离大脑皮层相对较短的神经生理路径,而触觉感知器官(皮肤)却覆盖了整个身体。因此,来自触觉接收器的信号常常需要经过较长的距离(比如从手指到头部)。脊髓对触觉感受器来说就起到了“信息高速公路” 的作用,把从接收器获得的信号传递到顶叶内的大脑体觉皮层———这部分大脑位于处理触觉过程的头部顶端区域。

神经外科医生WilderPenfield在20世纪50年代关于触觉敏感的重大发现已经证明了人体邻近部位对大脑皮层邻近区域的映射[11]。更有意思的是,这项映射研究确立了作用于身体各个部分的大脑体觉皮层的相对比例。图15所示的“皮层矮人” (corticalhomunculus)

的概念就是该理论的集中体现。别错以为这只是幅随意的讽刺漫画,其实这个矮人图呈现了一个人体各部分所占大脑体觉皮层的相对空间的比例模型。如图所示,该皮层组织致力于处理来自手指碰触的信号远超过其处理来自整个手臂和手腕,这恰恰证明了触摸屏用户界面设计师期望大量运用手指来实现触控式人机交互的合理性!

正如前面讨论过的,神经生理学对我们的感知过程有一个普遍的解释。感知系统的设计十分巧妙,绝大部分的大脑皮层组织与感知接收器最重要的部分是相连的。比如,视网膜中央凹与中心视力,耳蜗听毛细胞与听觉,手指尖与触觉等。虽然我们也拥有其他感觉机制,但是在与周围物理世界的交互中,我们更主要依靠的是看、听和碰触。因此本书主要关注眼睛、耳朵和触感作为自然人与显示器设备交流的主要模态。

相比起生物系统,当今大多数的计算和娱乐设备具有非常初级的感知和处理能力。就手机、平板电脑和笔记本电脑来看,它们是典型的“单眼”工作(仅有一个相机),就像希腊神话中的独眼巨人库克罗普斯一样。此外,它们大多数是单耳结构(仅有一个麦克风),还有许多尚未实现触敏(触摸屏),尤其是笔记本电脑。

但随着技术在多方面的迅猛发展,这一情况将有望在不远的未来得到改善。向自然和人类世界学习,工程师和设计师现在已经开始对计算和通信设备加入“类人” 的感触和感知属性,让它们能够“看” “听” 和“理解” 人类行为和指示,并发挥这些功能以促进自然的、本真的互动。这些发展保证了人机交互实现超越键盘、鼠标、操纵杆和远程遥控的突破,并允许基于碰触、视觉与言语感知和识别技术的自然交互的使用。

尽管现实中我们每时每刻感知和洞察周围世界是那样的自然和随意,但是只有我们尝试在机器中实施这些感知功能的时候才能理解这些任务的复杂性。在下一节,我们将综述人机界面与电子设备的重要技术,包括最近几十年广泛采用的技术先例以及新近实现的与显示器和系统交互的自然本真模态。


喜欢的朋友可以加入官方的读书群

51CTO读书频道二维码


51CTO读书会第9群:808517103

【责任编辑:book TEL:(010)68476606】

回书目   上一节   下一节
点赞 0
分享:
大家都在看
猜你喜欢

订阅专栏+更多

活学活用 Ubuntu Server

活学活用 Ubuntu Server

实战直通车
共35章 | UbuntuServer

216人订阅学习

Java EE速成指南

Java EE速成指南

掌握Java核心
共30章 | 51CTO王波

83人订阅学习

Mysql DBA修炼之路

Mysql DBA修炼之路

MySQL入门到高阶
共24章 | 武凤涛

468人订阅学习

读 书 +更多

Visual Studio Team Systems软件工程实践

本书论述了软件2018送彩金的娱乐网站价值增加的思维方式。这一思维方式构成了VSTS的基础,包括VSTS的指导思想,为什么这些指导思想会以某些方式表现,以及它...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊

51CTO服务号

51CTO播客

博聚网