|
|
51CTO旗下网站
|
|
移动端

3.12.2 分布的语音及语言技术

《实感交互:人工智能下的人机交互技术》第3章用户界面中的声控式交互技术,本书将深入讲解基于触摸、手势、语音和视觉等自然人机交互领域的技术、应用和未来趋势。本节为大家介绍分布的语音及语言技术。

作者:温秀颖 译来源:机械工业出版社|2019-02-07 17:00

3.12.2 分布的语音及语言技术

对于语音及语言用户界面,大致上要考虑以下因素来确定处理的位置:

平台能力:中央处理器,内存以及功率情况。

联网能力:网速,稳定性,带宽,联网额外花费,例如数据包限制。

语音识别和理解的应用领域所需要的模型类别和规模。例如,在不同语境下,是有10万个城市名需要识别,还是只有用户联系人列表中的几百个名字要识别?

以下设备类型是不同平台变化范围的一些例子:

个人电脑:充足的CPU和内存,持续供电。经常连接因特网。本地领域:命令运行软件和电脑,文本听写。

手机和平板电脑:有限CPU和内存,电池供电。经常连接因特网,联网可能更贵且不稳定(例如,信号覆盖消失)。

车载电脑:有限CPU和内存,持续供电。经常连接因特网,联网可能更贵且不稳定。

电视机:有限CPU和内存,持续供电。经常连接因特网,但并非所有用户都会将电视机联网。

云端服务器:广阔的CPU和内存资源,可同时应对多项互动。连接因特网以及其他大数据资源。

越来越多的联网促成了混合架构的发展。这些混合架构模糊了传统内置设定和基于服务器设定的界限,并且促成了对多种个人设备功能和领域的期待,例如,信息搜索、媒体播放、语音输入。

在考虑如何在分布式构架中分配任务时,备受推崇的做法曾经是“在数据本地进行处理”,而这种做法随着联网带宽的增长,已经并非绝对必要,但仍旧是良好的指导方针。假设自然语言或对话部分完全在远端服务器运行,则用户界面的一致性也是重要方面。如果数据连接中断,用户可能容易理解数据连接服务就像网络搜索一样被中断,但是他们可能不清楚,设备的自然语言对话能力也随之不可用了。

在语音与语言用户界面中,植入的“自带” 语音识别通常通过处理语音命令来操作指定设备,这可以通过使用语法分析型命令及控制类别识别器,或小数据语言模型(SLM) 来达成自然语言处理。然而,当前的移动平台在试图识别装载数万城市名的大预设列表的SLM语音时达到了极限。这样,该任务只能通过基于服务器的识别器来完成。很多情况下,在植入平台和服务器上同时进行识别是一种好办法,通过比较结果的置信度,然后选择最优解,从而避免低置信度自带语音识别结果对服务器语音识别的触发而引起的延迟。

自带识别器上的其他任务还有唤醒词语检测,并结合声音生物计量来分别启动设备并验证用户,利用语音行为和终点检测来分割语音和进行语音识别特征提取,从而保证只需往识别服务器上传输语音特征而非整段语音。

用户档案对于存储对话决策相关的个人偏好、说话人特征、本地语言声学和语言建模都有益处。用户档案还存有生物计量信息,可以确认用户的身份,从而授权某种服务或资料获取。若用户档案可以在任意设备上获取,则作用最大。但即使设备中断网络连接,比如当车过隧道时,用户档案也应该继续发挥作用。这个问题可以通过云端主人用户档案配合本地设备的同步复制档案解决,或者通过把手机作为档案的中心枢纽,因为手机是陪伴用户时间最久的设备。

在服务器上存储这样的档案的另一个优点是这一系列的档案可以组成一个包含广泛信息的独立实体,并且允许从用户群体或部分群体中获取数据。有的新闻服务可能有兴趣从所有连接到档案群的记录中找到热门话题,然后进行关键词搜索。有的音乐网店可能会查询档案群寻找加利福尼亚州18~25岁男性最喜欢的歌手。

通常,不同用户的各个档案相互连接,例如,用户A和B互为彼此电子邮件通讯录中联系人,或通过社交网站有联系。如果这个信息存储在用户档案中,这一组跨区相连的档案群就可以允许用户的虚拟助手进行提问,例如,“我现在要去的城镇有没有我的朋友,或者有没有朋友的朋友在那里?”或者“我的朋友们都在听什么音乐?” 基于服务器的识别和日志,当在用户档案中存储数据时,隐私和数据安全是设计和操作服务器基础设施的关键。

最后,在输出方面,TTS(文本转语音)和语言生成通常在用户设备上运行,除非高品质声音所需的内存比本地内存大,或者整个应用程序受托管且服务器解决方案更方便建立和维护。


喜欢的朋友可以加入官方的读书群

51CTO读书频道二维码


51CTO读书会第9群:808517103

【责任编辑:book TEL:(010)68476606】

回书目   上一节   下一节
点赞 0
分享:
大家都在看
猜你喜欢

订阅专栏+更多

活学活用 Ubuntu Server

活学活用 Ubuntu Server

实战直通车
共35章 | UbuntuServer

216人订阅学习

Java EE速成指南

Java EE速成指南

掌握Java核心
共30章 | 51CTO王波

83人订阅学习

Mysql DBA修炼之路

Mysql DBA修炼之路

MySQL入门到高阶
共24章 | 武凤涛

468人订阅学习

读 书 +更多

Linux安全体系分析与编程

本书选择经典的开放源代码,全面系统地分析了Linux安全机制。本书共有17章,前10章着重介绍了Linux操作系统的安全机制及实现方法,阐述了公...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊

51CTO服务号

51CTO播客

博聚网