|
|
51CTO旗下网站
|
|
移动端

3.9 多轮对话管理

《实感交互:人工智能下的人机交互技术》第3章用户界面中的声控式交互技术,本书将深入讲解基于触摸、手势、语音和视觉等自然人机交互领域的技术、应用和未来趋势。本节为大家介绍多轮对话管理。

作者:温秀颖 译来源:机械工业出版社|2019-02-07 16:45

3.9 多轮对话管理

上述的NLU模块形式可以满足单轮对话系统的需求,即用户交流在单一话语结束后完成。但在多轮对话系统中,NLU必须在问题、陈述和行为系统的场景以及前述话语中理解用户指示。这需要系统能够识别并追踪用户的整个对话意图。

把用户意图的空间分成对话意图和领域意图是一个有用的方法。对话意图表明了子对话想要阐明、纠正或开启一个新的话题的开始,它是领域独立的。领域意图表明了用户想要通知系统或要求某个特定的系统行为。Young(1993)[77]的研究认为,两种类型的意图都需要建模并通过一个复杂的多轮对话过程追踪。

有一个意图追踪的方法叫对话状态追踪。每个用户的话语首先由NLU模块处理以(通过分类)找到对话意图(告知、询问、纠正) 和领域意图(播放、录制电影,预订餐位),并从话语中抽取预设-填值对。从当前话语中抽取的信息(包括模型不确定性的概率)反馈到一个动态模型(如一个动态贝叶斯网络) 中作观察用。然后根据系统在当前话语前的信念状态,通过贝叶斯信念修正来移除或减少不确定性。

系统您想在哪里吃?

用户圣弗朗西斯科的一家意大利餐厅。

系统我找到几家圣弗朗西斯科的意大利餐厅,它们是……

用户其实我更想在今晚7点去一家中国餐厅。

系统我找到在圣弗朗西斯科的几家中国餐厅,今晚7点它们都有餐位。它们是……在这个例子中,为了正确理解用户最后的话语,对话状态追踪器区分了具有纠正意图的话语并覆盖了前述话语中提到的菜式种类。因此,该系统能够把用户最后的话语中提到的菜式、日期和时间预设与其最初提到的地点信息结合。这样的系统结构颇具吸引力,因为它能够处理语音识别产出/NLU传递途径内在的不确定性和歧义。

尽管追踪话语意图对处理有声对话的自然流量是十分必要的,但是识别领域意图对系统理解用户的最终目的并采取措施也同样不可或缺。用户的领域意图往往很复杂,类似于一套以自上而下的方式组织的AI方案[79]。因此,包括从“与或” 任务网络到概率层级HMM[80]的各层级结构都收到了根据复杂意图建模的指示。尽管稳定概率建模也会在预设和填值之间徘徊,但对复杂的意图进行稳定概率建模还是会要求更为清晰明确的、能结合概率和逻辑构建的表达式。这种复合建模方法是当前AI研究的活跃领域。

根据对话状态,系统必须调整预期并找到一个合适的回答。像RavenClaw这样的对话管理器已经用来引导控制流量,使系统有足够的提示信息而得以完成任务。对话管理器在混合主导场景中必须使用NLU模型来检测任务在意外的对话时点发生变化。复杂的对话还要求一个错误矫正策略。

因此,对话中自然语言的理解需要与对话管理策略密切合作。正如前面所述,话语复杂性的范围可以从完全匹配已知数据列表的简单单词或短语,一直延伸到提供额外信息的开放性话语,或在任意时点命令转换任务的要求。准确的NLU模块综合使用训练数据和手动设定的语言材料来处理语言变体,包括字典、语法和本体意义。NLU面临的其中一项挑战是恰当的理解话语、单词或短语的不完整信息。如果系统刚刚问到“您想什么时候出发?”,“早上9点”的回答就会被理解成在机票预订对话中填写的起飞时间,而预设“您想什么时候到达?”则针对的是对到达时间的提问。对话管理器把握着对话状态并能提供能够简化阐释话语碎片任务的对话语境信息。

早期提出的一个与NLU元件交流语境信息的简单建议是让对话管理器预测一系列的语言环境,从而能够帮助NLU “理解”用户的下一组话语[83]。如果系统已经询问: “您想要什么时候离开?”那么对话管理器就能提供陈述式的前缀“我想在……时候离开”,以拼接用户阐述的任意前端信息。如果用户的回答是“早上9点”,则在连接之后的结果就是一个完整的、可阐释的和有意义的句子———按照正常的语法结构来说。在一个混合主导的场景中,用户并不局限于给予系统问题一个直接或最简的回答,因此话语管理器能够提供一系列可能的前缀并期待其能够涵盖用户的指令:

[我想]“早上9点”[离开]

[我想在]“周二早上9点”[离开]

该方法的主张是有一小组语式能够为自然的、有意义的用户回答提供环境;如果用户针对这个问题回答“波士顿”而不是一个时间或日期,这对机器乃至人来说都是十分诧异和费解的。当然,用户可能会选择根本不回答这个问题并提供关于旅行的其他信息,或设置转向另一个任务。那样的话,自然话语将是一个完整的句子,且对话管理器可以根据落空的语言环境做出预期:

[]“我想做飞机去波士顿”
这是一种对话管理器和NLU元件共同合作的方法,用以决定用户下一话语段的含义。

对话管理器能够根据对话的当前状态输入预期对象,通过一种能够简化整体系统的方式传送给NLU,同时产生更为恰当的对话行为。

NLU的输出模块能提供对话管理器需要的信息,以使其能够决定用户的意图和预期(比如,寻找附近的餐厅,看电影,订机票,或仅仅是想知道第一任美国总统的信息)。对话管理器还能考虑到系统的功能(比如,获取地方电视台节目,操纵Netflix上的视频或获取实时交通信息以及导航驾驶)、用户的行为和偏好,以及过往的交互体验。

如果用户的意图和预期得到满足,系统就仅会执行合理的领域活动。否则,其任务就是按照一个对话策略[84],找出“接下来要说什么”,以便从用户处获得更多信息并最终满足用户的需求。一旦“说什么” 的问题得以回答,自然语言生成(NLG) 模块则将广泛应用并能够回答“该怎么说”的问题(即决定和用户交流的最佳方式)。

虽然对话管理器是如此根本的一个有声对话系统的元件,研究和运营单位对其的定义和功能还存在不同的理解。是,人们一致认为对话管理器应该至少包含两个交际系统的基本方面,即追踪对话状态和决定下一行为。

实施这两种功能的方式有许多。大多数商业系统和研究单位主要依赖于某些形式的有限状态机(FSM)[84]。该FSM方法要求对话中的每个变化都要被明确地表现为网络中两种状态的转换,并假定用户输入能够被系统提示局限或指挥。这意味着对话管理器并不灵活且无法处理突发的情况。让更为复杂的系统采用这个方法并不现实,因为它不得不完全明确在每个话轮的所有可能选项。而且,这种方法使得任何程度的混合主导变得几乎不可能实施。上述缺点导致了“功能模型” 方法[85-88]的问世。这其实是传统FSM的拓展。传统FSM允许有限状态机启用任一分类,旨在在每个状态实行主观决策,并对过渡数据假定任意复杂的先决条件。这些延展功能使系统能够接受过于具体的用户话语,这些话语以混合主导的形式存在。相对的,信息状态修改法[89,90,91]使用框架或树形结构作为控制机制,并为意外的用户话语留存空间。但是,任何这些系统处理的对话都通常是满足预设值的类型。系统仅会在指定任务的某个参数缺失的情况下询问用户问题。

为了处理更为复杂的任务,包括协作解决问题、智能助手和辅导对话,对话系统常常与规划技术一起实施。最近,使用机器习得方法(更具体来说是强化学习(RL) 法)的数据系统已经成为当前研究的重要技术。这些方法把对话策略建成一个顺序决策过程模型,称为“部分可观察马可夫决策过程“(POMDP)。Frampton和Lemon(2009)[93]综述了针对在有声对话系统中应用RL技术的科研进程。

这些方法为2018送彩金的娱乐网站人员提供了精确严谨的数据导向优化模型,而不是依赖于专家和机构的策略。它们还有可能对隐蔽的状态进行归纳,对未知的情景进行调试,但由于需要大量的训练数据和稳定的技术来构建策略优化使用的状态空间、奖励功能和目标功能,这些方法也饱受诟病。还有,对于如何使该系统内的习得规律获得自然用户的本能理解并在需要的情况下加以修改,这一点的认知是广泛缺乏的。此外,解决POMDP问题的复杂性往往限制了对话系统表达式的丰富性。

2018送彩金白菜网大全研究开始关注上述问题,比如使用分层的RL来减少状态空间的大小。另一项策略就是从一个小的数据集合来学习一个模拟的环境,使其能够使用RL技术而无需广泛的人与人对话数据。

近几年,有声对话系统的商业应用已经获得了大批用户的青睐,这主要得益于其在移动设备上的安装运行。但是,这些系统仍然缺乏许多重要的功能。它们非常擅长执行某些基于满足预设条件的对话,但往往不是重返至一般网络搜索,就是搜索具体领域的某项服务(餐厅,电话联系人,电影)。

目前基本不存在能够扩展系统行为的合作筹划或解决问题的能力,也因此无法处理复杂或突发性的话语,因为有些话语需要通过与用户进行一系列灵活的、多话轮的互动才能进一步澄清理解,提炼内容,需要考虑到对话发生的情景和时代背景。话语研究人员正不断试验新的技术和系统,以期能够在更广阔的领域和场景支持更为自然有效的对话中介行为。随着整合机器学习、人工智能和推理、用户界面设计以及自然语言理解的新技术的不断2018送彩金的娱乐网站,具备上述功能的系统将在不远的将来出现。


喜欢的朋友可以加入官方的读书群

51CTO读书频道二维码


51CTO读书会第9群:808517103

【责任编辑:book TEL:(010)68476606】

回书目   上一节   下一节
点赞 0
分享:
大家都在看
猜你喜欢

订阅专栏+更多

活学活用 Ubuntu Server

活学活用 Ubuntu Server

实战直通车
共35章 | UbuntuServer

216人订阅学习

Java EE速成指南

Java EE速成指南

掌握Java核心
共30章 | 51CTO王波

83人订阅学习

Mysql DBA修炼之路

Mysql DBA修炼之路

MySQL入门到高阶
共24章 | 武凤涛

468人订阅学习

读 书 +更多

Cisco网络工程案例精粹

《Cisco网络工程案例精粹》是一本以案例为基础兼顾知识概述的案例性书籍,所收录的案例都是笔者精心挑选出来的在网络工作中常见的案例。 ...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊

51CTO服务号

51CTO播客

博聚网