|
|
51CTO旗下网站
|
|
移动端

3.8.2 预设和填值技术的局限

《实感交互:人工智能下的人机交互技术》第3章用户界面中的声控式交互技术,本书将深入讲解基于触摸、手势、语音和视觉等自然人机交互领域的技术、应用和未来趋势。本节为大家介绍预设和填值技术的局限。

作者:温秀颖 译来源:机械工业出版社|2019-02-07 16:41

3.8.2 预设和填值技术的局限

一个移动助手可以仅仅依靠NER算法找到可以满足行为模板的答案,就能成功地执行诸多任务。

填值作为一组对于后端数据库内元素的单独限制,系统往往把它们的连接词(如,“菜系:意大利”和“地点:圣弗朗西斯科”)作为一个附加在合理输入词条(“吉普赛人私房菜” “巴巴可”) 上的限制而从后端抽取。若用户使用更灵活的话语或更概括的条件互动,则该基础的自然语言理解形式将无法胜任。

思考一下“一家有现场音乐表演的意大利餐厅” 和“一家没有现场音乐表演的意大利餐厅”的区别。虽然都提到了相同的特征,但是由于介词的不同,它们描述的是完全不同的两类餐厅。NLU必须要辨别出介词表达的不同关系,辨别出“没有” 是一个对预设值的消极限制,而不是指特定的餐厅的集合。诸如“有” 或“没有” 等修饰语以及其他介、连词常常在传统信息获取或搜索系统中被视为无用词,但移动助手的NLU必须要格外注意这类单词。

自然语言也会通过话语中特殊单词的顺序来设定意义。“一家有卖好红酒的意大利餐厅”并不会与“一家有卖意大利红酒的好餐厅” 混淆,虽然肯定有很多餐厅都能符合两种描述。这种情况下,NLU必须把单词的顺序转换成特定类别的语法关系或相依性,并要考虑到英语的形容词通常在名词前修饰。这种关系在以下的相依性图示中会表现得更为明显。

图313表明了依存关系分析器的输出,这是NLU处理过程中作用于命名识别器结果的一个环节。依存关系分析器检测单词之间的意义关系,如该例子中的“意大利”就是“餐厅” 的修饰语, “有着” 对餐厅加以限制,最后“好”修饰的是“红酒”。

依存关系分析器也在所有从句中检测关系,查找一个事件和参与人以及他们的具体角色。图314显示的主语和宾语的标注限制了要搜索哈利被罗恩所救而不是相反关系的电影。编码了相依性的语法规则可以非常复杂,而且诸多方面重叠。这是在命名实体的语义模糊识别之外的另一个可能理解,如图315所示。

按照英语的语法规则,“之后” 这一介词短语可以修饰“预订” 或“餐位”。第一种情况的理解是要求当天晚些时候预订,在会议之后。第二种可能性更大的理解是现在应该就完成预订,以便晚些时候能有位置。依存关系分析器可能会更青睐某个语法规则,但最可能的意思是结合对话系统中其他可参考的信息,比如,在一个能考虑到特定事项模型的过往行为或一般餐厅预订规则常识的AI和论证模块中。

机器学习方法也已经为依存关系分析器进行了定义。至于命名实体识别,由于受到标注有依存关系的大型语料库的驱使,该任务被划分成一个分类问题。有一项技术会考虑到话语内所有单词的可能依存关系并选取有最大化扩展项的概率树,即训练数据评估后分数最高的依存关系集合。其他技术则从左向右逐渐处理句子,估计每个会最佳配对训练数据的行为点。这些行为能够为下一个单词引入一个新的依存关系或将下一个单词暂存至一个栈而以后决定。

还有的语法分析器通过大规模手工编写语法生成依存结构或其相等结构。它们根据语言的基本理论,通常得出含有更多语言学信息的表达式。而且,它们并不需要构建昂贵的已标注语料库,因此不受限于语料库的该特征。但是,它们可能会比数据统计的分析器消耗更多的计算资源,而且要求更多的语言学专业知识来2018送彩金的娱乐网站和维护。这些因素都会决定哪种分析模块在特定移动设备配置中更有效。

依存结构生成了连接句子中各个单词的关键语法关系。但是想让系统理解单词的含义并转化成正确的系统执行还需要进一步的处理。许多单词含有NUL元件需要识别的多重或不相关的含义。鉴于移动设备能执行的任务的能力,通常只能执行一项内容。英文“book”这个动词本身就有多重含义(“预订”和“关押入狱”),但是对于预订服务设备来说唯一的可能就是第一项含义。区分英文单词“play”的含义则要多下点功夫:

谁打(played)塞雷娜·威廉姆斯?

谁扮演(played)詹姆斯邦德?

同样的单词在第一个问题中表达“打比赛” 的意思,在第二个问题里是扮演的意思。意思的选择取决于宾语的类别。若宾语是一名运动员,则第一种含义成立;若宾语是一个影视角色,则第二种含义成立。去歧义处理取决于命名实体识别(查找命名)、指代消解(查找名称指代的对象)、语法分析(给予对象语法关系)。此外,去歧义还取决于本体推理:后端知识元件知晓塞雷娜·威廉姆斯(SerenaWilliams)是一名网球运动员,网球运动员属于运动员类别,该类别只和表达“打”含义的宾语匹配。

去歧义的推理不仅仅依靠查询类别的名称。限定和非限定描述的类别信息也同样需要用来确定含义,比如:

谁打(played)赢了法网公开赛?

谁弹的(played)史特拉第瓦里?

第一种情况需要了解哪些对象是体育赛事的参与者,即运动员;第二种情况需要知晓什么是史特拉第瓦里(Stradivarius),即一种提琴管弦乐器。随后该信息就能被传入一个从本体意义跨越到推理演算的模块,比如,提琴是发声物体,进而与“play”为“演奏”意义的宾语实现匹配。

这些例子适用于RDFS[72],一种与RDF连接的小型本体语言;RDF是“资源描述框架”,代表了在语义网(SemanticWeb)中的实体对象的简单信息。RDFS许可各类对象的表达式(塞雷娜·威廉姆斯指一个人,也指一名网球运动员)、此类别的概括关系(如网球运动员属于运动员)和归类到不同的逻辑关系中(“打赢”的主语是人)。

去歧义也会需要更复杂的推理链,包括组合多个对象或描述的信息。这些更为复杂的情况可能需要功能更强大的本体语言,如W3COWLWeb本体语言。OWL延展了RDFS在定义类别方面的能力(如定义一个人是男性),并提供局部归类(如一个人的孩子是人)。

本体推理器是综合知识表达式和推理能力的具体案例,它们不仅能解决更为隐含的歧义,而且还可以为更为灵活的对话互动(见3106节)进行策划和推理。这些需要有能够执行更为复杂的逻辑演绎任务的能力(比如一阶谓词逻辑),比相对简单的基于本体的推理耗费更高的运算成本。

用户输入的某些单词可能会根据它们的语境取义。指代会话中前述对象的代词和其他描述就属于这种情况。若系统指出一个满足所有用户要求的某个餐厅,用户可能进一步提问“那有不错的红酒吗?”随后系统必须识别(通过一个名为回指消解(anaphoraresolution)的过程见———Mitkov[75])句中的指示代词“那里” 指的就是该餐厅。用户甚至可能会问“红酒品种怎么样?”,该问题没有包含明确的代词,但还是能理解为所指餐厅的红酒品种。限定描述(“红酒品种”) 和指定餐厅的联系取决于本体意义指出的该餐厅的部分信息和属性。

有些单词和表达并没有涉及会话中前述的对象,而是直接指向在对话中的客体或发生的某些情况。指示代词(这,那,那些)和其他所谓的指示词(现在,昨天,这里,那里) 就属于此类。如果对话发生在用户开车的时候,该用户可能会指向某个餐厅并问, “那家餐厅有好的红酒吗?”这种情况的对话系统必须识别用户正做出一个手势指示,辨明手势所指的是一家餐厅,并向NLU元件提供信息以便其将合适的对象信息赋予用户所指的“那家”餐厅。

当用户问到“这附近有没有什么好的餐厅?”或者“有什么在接下来一小时内会播放的电影吗?”,其他方面的对话情景(如当前位置和时间) 必须同样考虑在内。这些例子说明了对话系统必须能够管理和对接来自不同渠道的多模态信息。能够处理这些多模态信息并使其同步化的是一个由W3C本体语言建议的名为“可扩展多模态注释标记语言” (EMMA)的工具。


喜欢的朋友可以加入官方的读书群

51CTO读书频道二维码


51CTO读书会第9群:808517103

【责任编辑:book TEL:(010)68476606】

回书目   上一节   下一节
点赞 0
分享:
大家都在看
猜你喜欢

订阅专栏+更多

活学活用 Ubuntu Server

活学活用 Ubuntu Server

实战直通车
共35章 | UbuntuServer

216人订阅学习

Java EE速成指南

Java EE速成指南

掌握Java核心
共30章 | 51CTO王波

83人订阅学习

Mysql DBA修炼之路

Mysql DBA修炼之路

MySQL入门到高阶
共24章 | 武凤涛

468人订阅学习

读 书 +更多

.NET for Flash动态网站2018送彩金的娱乐网站手札

本书深入浅出地说明了如何利用.NET、Flash及XML来辅助Flash富媒体应用程序的2018送彩金的娱乐网站。 本书首先介绍了Flash影片应用程序与.NET应用程序结合的...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊

51CTO服务号

51CTO播客

博聚网