|
|
51CTO旗下网站
|
|
移动端

1.3.4 视控交互

《实感交互:人工智能下的人机交互技术》本书将深入讲解基于触摸、手势、语音和视觉等自然人机交互领域的技术、应用和未来趋势。本节为大家介绍视控交互。

作者:温秀颖 译来源:机械工业出版社|2019-02-03 19:41

1.3.4 视控交互

我们在12节已经讨论过,视觉感知,更确切地说是目测和理解3D环境的能力,是一种能够使我们在物理世界中畅行、与他人交流的必备素质。2D相机和成像应用现在已经是计算和娱乐设备中必不可少的组成部分,特别是在手机、平板电脑和笔记本电脑中,该技术还越来越多地应用在一体化的桌面电脑和高端巨屏电视机中。

目前,集成在手机里的2D相机的主要应用是拍摄数码静止照片和录像,而那些在大型设备和显示器里的相机则主要用于视频会议应用。电脑视觉研究人员已经2018送彩金的娱乐网站了能够探测、追踪和识别面部和表情、理解动作和简单手势的2D图像处理算法。

传统2D相机拍下3D世界的影像并将其投射在2D平面图中,舍弃了许多置身3D空间的视觉信息细节。

科学家已经花费了巨大的科研精力研究如何把单一的2D图像复原成3D信息的过程,以更好地理解人类动作。从2D投射中重构3D空间信息是一个有着内在歧解的病态问题,即便对架起一个已知的结构(如人体) 来说也是一个挑战,很多有前景的研究结果只是非常有限地使用在了实践中[30-32]。这些方法总的来说需要电脑的密切配合和人工输入,因此对需要实时独立分析3D环境和人体动作的交互应用程序来说并不适合。

相比之下,人类视觉系统的3D成像工艺流程可以捕捉并使用3D视觉信息,推进高效稳健的认知和互动。增加实时3D视觉传感功能可以实现真正交互式的、理解用户的系统显示和丰富的自然用户交互。这些功能包括在显示器前使用实时3D图像传感技术来拍摄3D景象;在3D空间内用电脑视觉算法来理解3D图像和实时用户活动;调试用户界面,使其能够本能地执行人类任务、指示智能系统和回应命令。

视控姿势识别是全世界正在兴起的一个研究和2018送彩金的娱乐网站领域,学术界和业界的实验报告都反映了该领域快速发展的技术,揭示了基于人类动作行为研究的多层次交互过程的分类和实践发展[29,33-35]。第4章是对视控交互方法的综述,包括3D传感和肢体动作识别技术,说明了在人机交互应用中使用这些技术的现状和对未来的展望。

基于3D传感装置的系统和应用已经在市场上出现,较传统2D成像技术,它们为用户带来了更为丰富和稳健的互动体验[36,37]。这些初期的市场成功有力地推动了3D视觉技术在未来更多设备系统中的使用,也使得3D用户交互更为普及。实时3D图像技术在电子设备中的应用实现了显示器前微观用户交互和3D空间内的目标操纵。

实现3D实时传感的方法各式各样,总的来说都是要输出一个除了彩色图像之外的等深图,使成像的3D物体和景象得以重建。其中三个最为突出的方法是,结构光3D传感技术、立体3D成像和飞行时间法范围成像技术[37]。第5~7章将深入到每个具体的3D成像方法,为3D交互应用的使用打下基础。

运用上述技术实时获取3D视觉信息,我们就能通过3D图像识别推理技术实现的非触屏互动来启动丰富的人机交互方案。图110显示了一些在显示屏前依靠3D手势而获取的自然体验,而并非使用传统的2D输入技术,如鼠标或触摸屏[37]。左图显示了这样一个场景:用户希望伸手“抓住”门把手, “转动”,然后从显示平面中“拉拽” 以“打开” 那扇门。右图展示了一个“弹弓”应用程序:用户用手指“拉伸” 弹力绳, “瞄准”3D空间中的目标,并“释放”弹力绳,以击中目标并打破3D结构的元素。这些动作与使用鼠标、键盘乃至触摸屏都有很明显的不同,后者并非用户的本真体验。但是,使用实时的3D图像捕捉以及3D电脑视觉算法来实现3D手势交互可以产生更为自然和本真的用户体验。


除了3D空间内的手势互动和物体操纵以外,实时3D成像还能变革照相方法、视频会议、远程协作和录像博客等应用程序。比如,通过使用3D成像装置生成的等深图,用户可以更轻易准确地从图像中被分离出来,然后从背景中抽出或放入另一个定制的背景中。图111呈现了这个技术。

虽然图像处理技术可以用在传统的2D图像上来达成这种效果,但3D传感设备能使分隔更为清晰,还能使实时应用程序使用3D景象信息。比如,人们可以通过视频会议程序在家里舒适地参加商务会议,但是在屏幕上显示的却是参会人在自己办公室的背景!

另一个能够显著改善的应用类别是增强现实程序,即把3D图像内容加至捕捉的图像序列中。不同于使用2D相机的传统增强现实程序,3D成像可以用3D物体和反映真实视觉的景物模型来增强影像内容,并使用户能够与增强现实的元素进行交互。想象一下能够让你虚拟地站在装有3D成像设备的交互显示器前试穿衣服或试戴首饰的应用,或是选择合适的家具来虚拟地装饰你的房间。

除了追踪和识别手势和肢体动作之外,在侦测凝视方向和确定用户在显示器上的视线方位方面,3D科技也有了重大的发展和突破。目光凝视在人际交往方面发挥了显著的作用。凝视是注意力的重要体现指标。图112就显示了某个人在观赏一幅画时的兴趣点分布。

神经生理学研究已经显示了凝视在与物理世界进行持续交流方面的重要性[38,39]。尽管眼睛的主要功能是捕捉景物的视觉信息——— 作为部分视觉感知过程,但我们在交流的时候同样也把凝视和语音、手势进行紧密协同。举一个例子,当你说“请给我那个红球” 并注视椅子上的那个红球的时候,看着你的人就会明确地意识到你并不是要那个此时放在地上的红球。这个人只需要简单地跟随你双目凝视的方向就能理解你的意思,即使你并未用手指指向那个在椅子上的球。

研究人员长久以来致力于把强大的交互机制并入含计算系统的用户界面,特别是和其他相关的交互模态一起。比如,我们只需瞧一眼笔记本电脑上的图标,说上一句“打开它”或者“启动”,无须伸手触摸荧屏或使用鼠标对准点击就能将文件打开,甚至还可以在自由空间内打一个手势。在第8章,Drewes详细综述了凝视追踪技术、系统及其应用,包括当前人际交互方案中凝视追踪的局限性和应对这些挑战的可能途径。


喜欢的朋友可以加入官方的读书群

51CTO读书频道二维码


51CTO读书会第9群:808517103

【责任编辑:book TEL:(010)68476606】

回书目   上一节   下一节
点赞 0
分享:
大家都在看
猜你喜欢

订阅专栏+更多

活学活用 Ubuntu Server

活学活用 Ubuntu Server

实战直通车
共35章 | UbuntuServer

216人订阅学习

Java EE速成指南

Java EE速成指南

掌握Java核心
共30章 | 51CTO王波

83人订阅学习

Mysql DBA修炼之路

Mysql DBA修炼之路

MySQL入门到高阶
共24章 | 武凤涛

468人订阅学习

读 书 +更多

Tomcat与Java Web2018送彩金的娱乐网站技术详解

本书详细介绍了在2018送彩金白菜网大全Tomcat 5版本上2018送彩金的娱乐网站Java Web应用的各种技术。主要内容包括:Tomcat和Java Web2018送彩金的娱乐网站的基础知识,Java Web2018送彩金的娱乐网站的高级技术...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊

51CTO服务号

51CTO播客

博聚网