面向目标导向主动对话规划的伪孪生网络
摘要
提出FF-BPSN,一种前向聚焦双向伪孪生网络,使用两个Transformer解码器进行目标导向主动对话中的对话路径规划,在DuRecDial基准上达到最优性能。
arXiv:2605.20195v1 Announce Type: new
摘要:目标导向主动对话系统旨在将对话引向预定义目标,同时主动提供建议。该系统的核心范式是规划合理的对话路径,随后引导语言模型(如预训练或大型语言模型)生成回复,其中对话路径规划作为核心组成部分——这是一个新颖但尚未充分探索的问题。本文提出了一种前向聚焦双向伪孪生网络(FF-BPSN),用于向预定义对话目标的路径规划。FF-BPSN采用两个相同的基于Transformer的解码器进行前向和后向规划,结合一个前向聚焦模块,该模块整合双向信息以构建最终的前向路径。该路径受益于双向规划,同时优先考虑前向信息。然后我们利用规划好的路径引导语言模型生成回复。在DuRecDial和DuRecDial 2.0上的大量实验表明,FF-BPSN在对话路径规划上达到了最先进性能,并显著增强了目标导向主动对话系统的效果。
查看缓存全文
缓存时间: 2026/05/21 06:31
# 面向目标导向主动对话规划的双伪孪生网络
来源: https://arxiv.org/html/2605.20195
###### 摘要
面向目标导向的主动对话系统旨在将对话引导至预定目标,同时主动提供建议。此类系统的核心范式是规划合理的对话路径,随后引导语言模型(例如预训练或大语言模型)生成回复,其中对话路径规划作为核心组件——这是一个新颖但尚未充分探索的问题。在这项工作中,我们提出了一种面向目标对话路径规划的**前向聚焦双向伪孪生网络**(FF-BPSN)。FF-BPSN 使用两个相同的基于 Transformer 的解码器进行前向和后向规划,并结合一个前向聚焦模块,该模块整合双向信息以构建最终的前向路径。该路径受益于双向规划,同时优先考虑前向信息。然后,我们利用规划的路径来引导语言模型生成回复。在 DuRecDial 和 DuRecDial 2.0 上的大量实验表明,FF-BPSN 在对话路径规划方面达到了最先进的性能,并显著提升了面向目标主动对话系统的有效性。
索引术语—面向目标主动对话系统,对话路径规划,自然语言生成
## 1 引言
面向目标导向的主动对话系统旨在将对话引导至预定目标,同时在适当时主动提供建议[8 (https://arxiv.org/html/2605.20195#bib.bib20),15 (https://arxiv.org/html/2605.20195#bib.bib4)]。确保多轮对话的连贯性对于其有效性至关重要,近年来此类系统引起了越来越多的研究兴趣[1 (https://arxiv.org/html/2605.20195#bib.bib3),2 (https://arxiv.org/html/2605.20195#bib.bib18),4 (https://arxiv.org/html/2605.20195#bib.bib19)]。基于先前工作[10 (https://arxiv.org/html/2605.20195#bib.bib6),16 (https://arxiv.org/html/2605.20195#bib.bib7),17 (https://arxiv.org/html/2605.20195#bib.bib17)],主导范式是先规划一个对话路径,然后引导预训练语言模型(PLM)或大语言模型(LLM)生成回复。对话路径规划位于此范式的核心,但仍是一个新颖且未被充分探索的问题。在本文中,我们遵循此范式,将任务分解为两个步骤(图1 (https://arxiv.org/html/2605.20195#S1.F1)):(i) 规划由 [动作, 主题] 对组成的路径,(ii) 使用该路径引导 PLM 或 LLM 生成回复。每个对作为一个子目标,最后一个对对应于预定义的目标。例如,在图1 (https://arxiv.org/html/2605.20195#S1.F1)中,路径 [回答问答, 张国荣], ..., [播放音乐, 倩女幽魂] 表示最终目标是播放音乐《倩女幽魂》,中间子目标如 [回答问答, 张国荣]。语言模型根据当前子目标、领域知识和对话历史生成回复,从而通过连续的子目标达到最终目标。
参照图注图1:面向目标主动对话系统示例。蓝色表示动作,绿色表示主题。路径由 FF-BPSN 基于对话目标、领域知识、用户画像和对话历史生成。然后基于当前子目标、领域知识和对话历史生成每个对话轮次。然而,规划一个合理的对话路径以确保对话自然流畅仍然具有挑战性:(i) 路径必须与用户兴趣和对话目标高度相关;(ii) 先前工作主要关注单向路径规划,未能充分考虑双向规划;(iii) 对话倾向于向前推进,因此应强调前向路径。为了解决这些挑战,我们提出了一种**前向聚焦双向伪孪生网络**(FF-BPSN)来规划朝向预定目标的对话路径。然后利用此路径引导 PLM 或 LLM 进行回复生成。具体来说,前向和后向路径由两个基于 Transformer 的解码器解码,形成伪孪生网络。一个前向聚焦模块随后整合来自两个路径的信息以生成最终的前向路径。生成的前向对话路径引导 PLM(DialoGPT、BART、GPT-2)和 LLM(LLaMA 系列)生成回复。我们的贡献如下:
(1) 据我们所知,这是首次研究面向目标主动对话系统中用于对话路径规划的前向聚焦双向网络。(2) 我们提出了用于对话路径规划的 FF-BPSN,它由两个相同的基于 Transformer 的解码器和一个前向聚焦模块组成。由此产生的对话路径显著提升了回复生成性能。(3) 大量实验表明,FF-BPSN 在对话路径规划方面达到了最先进的性能,从而显著改善了对话系统性能¹¹https://github.com/imaodong/FF-BSPN。
## 2 相关工作
面向目标对话系统旨在将对话引导至预定目标。[14 (https://arxiv.org/html/2605.20195#bib.bib8)] 引入了粗粒度关键词来引导系统回复。[9 (https://arxiv.org/html/2605.20195#bib.bib10)] 和 [19 (https://arxiv.org/html/2605.20195#bib.bib11)] 采用强化学习 (RL) 通过将任务分解为子任务来增强性能。对于基于知识图谱 (KG) 的应用,[23 (https://arxiv.org/html/2605.20195#bib.bib9)] 集成了外部 KG 以改进关键词转换和回复检索,而 [20 (https://arxiv.org/html/2605.20195#bib.bib2)] 提出了一种全局 RL 算法,使用常识 KG 规划对话路径。面向目标主动对话系统不仅将对话引导至预定目标,还提供及时的推荐 [8 (https://arxiv.org/html/2605.20195#bib.bib20),15 (https://arxiv.org/html/2605.20195#bib.bib4)]。[10 (https://arxiv.org/html/2605.20195#bib.bib6)] 构建了 DuRecDial 数据集,并提出了一个多目标驱动的对话生成模型。为了统一多子目标对话,[21 (https://arxiv.org/html/2605.20195#bib.bib12)] 引入了一个知识增强的多子目标驱动主动模型。R-Walker [12 (https://arxiv.org/html/2605.20195#bib.bib5)] 在 KG 上执行树状结构推理以生成对话内容。对于对话路径规划,应用布朗桥随机过程来建模时间动态 [16 (https://arxiv.org/html/2605.20195#bib.bib7)],而 [15 (https://arxiv.org/html/2605.20195#bib.bib4),17 (https://arxiv.org/html/2605.20195#bib.bib17)] 为此任务开发了一个规划网络。然而,这些方法并未充分利用双向路径信息。为了解决这一空白,我们提出了具有前向聚焦模块的双向对话路径规划,该模块将来自两个方向的信息整合到最终的前向路径中,以引导语言模型生成回复。
## 3 方法论
### 3.1 任务定义与符号说明
令 D = { (K^i, P^i, C^i), ({ACT}^i_{j=1:T}, {TOP}^i_{j=1:T}), R^i }_{N}^{i=1} 表示对话数据集,其中 N 是对话数量,T 是 [动作, 主题] 对的数量。这里,K^i 表示作为主语-关系-宾语三元组的领域知识,P^i 表示用户画像,C^i 是对话历史,R^i 是回复。ACT 和 TOP 分别表示每个对中的“动作”和“主题”(图1 (https://arxiv.org/html/2605.20195#S1.F1))。对话路径 ({ACT}^i_{1:T}, {TOP}^i_{1:T}) 导向目标 ({ACT}^i_{T}, {TOP}^i_{T})。FF-BPSN 基于 K^i、P^i、C^i 和目标生成此路径,并将生成的前向路径在每个轮次中整合到语言模型中以生成回复。
### 3.2 路径规划框架
路径规划框架基于 Transformer 架构(图2 (https://arxiv.org/html/2605.20195#S3.F2)),生成对话路径 {ACT}_{j=1:T}, {TOP}_{j=1:T} 以确保平滑转换并达到预定义目标。它执行双向规划——从当前状态到目标及其反向——并合并结果形成最终的前向路径。我们将对话路径表述为序列,并引入两个前缀标记 [A] 和 [T] 来在生成过程中指示 ACT 和 TOP(图2 (https://arxiv.org/html/2605.20195#S3.F2))。领域知识使用基于 Transformer 的编码器编码为图结构,遵循 [15 (https://arxiv.org/html/2605.20195#bib.bib4),17 (https://arxiv.org/html/2605.20195#bib.bib17)],其中知识表示为关系-实体对,并通过增加从目标节点到当前节点的跳数来扩展。与先前工作不同,我们直接使用基于 Transformer 的编码器对用户画像和对话历史进行编码。框架输入包括领域知识 K、用户画像 P、对话历史 C 和目标 ({ACT}_T, {TOP}_T)。FF-BPSN 利用知识-目标相互注意力(KT),已在 [15 (https://arxiv.org/html/2605.20195#bib.bib4),7 (https://arxiv.org/html/2605.20195#bib.bib21)] 中证明有效。前向过程输出 [A]{ACT}_1[T]{TOP}_1...[A]{ACT}_T[T]{TOP}_T,而后向过程输出反向序列 [A]{ACT}_T[T]{TOP}_T...[A]{ACT}_1[T]{TOP}_1。在双向规划之后,前向聚焦模块生成最终的前向路径 [A]{ACT}_1[T]{TOP}_1...[A]{ACT}_T[T]{TOP}_T。
参照图注图2:FF-BPSN 整体架构。
### 3.3 前向聚焦模块
如图2 (https://arxiv.org/html/2605.20195#S3.F2) 所示,我们采用标准的 ReLU+MLP 结构进行通用特征融合。对于前向聚焦组件,一个前向聚焦特征融合模块整合来自前向路径和后向路径的信息以产生最终的前向路径。令 F_f 和 F_b 分别表示前向和后向路径。该模块形式化为:
O_f = Sigmoid(F'') · F'' + (1 - Sigmoid(F'')) · F' (1)
F'' = MLP([F_f; F_b]) (2)
F' = F_f · F_weight + F_b · (1 - F_weight) (3)
F_weight = Sigmoid(Linear(F_f)) (4)
其中 MLP(·) 是一个普通的多层感知机,O_f 表示最终的前向对话路径输出(即 FF-BPSN 输出)。
### 3.4 FF-BPSN 的训练损失
对于前向、后向和最终前向路径,损失分别记为 L_1、L_2 和 L_3,并使用交叉熵计算。由于前向和后向路径传达相同的含义,我们期望它们之间有较高的相似度,记为 L_4。此外,我们使用 γ 和 β 来调节前向和后向规划的影响。总损失函数如下:
L = γL_1 + βL_2 + L_3 + L_4 (5)
L_4 = ||F_f - F_b||_2 (6)
### 3.5 路径解码与回复生成
通过 FF-BPSN 的贪婪解码,我们获得最终的前向路径 [A]{ACT}_1[T]{TOP}_1...[A]{ACT}_T[T]{TOP}_T。路径规划框架和 PLM(或 LLM)以管道方式顺序训练,生成的路径用于引导回复生成。在每个轮次,从 FF-BPSN 路径中提取当前子目标,并与对话历史和领域知识结合形成自然语言提示,然后用于微调 PLM 和 LLM 以生成回复。
R̂ = LM([C; K; (ACT_x; TOP_x)]) (7)
其中 C 和 K 分别表示对话历史和领域知识,而 ACT_x 和 TOP_x 表示当前动作和主题(即子目标)。LM(·) 表示语言模型,R̂ 是由语言模型生成的回复。
## 4 实验
表 1:数据集统计。表 2:主要结果。**粗体** 表示类别模型中使用 FF 的最佳结果,下划线 表示所有模型中的最佳结果。表 3:规划结果。**粗体** 突出显示最佳结果。
### 4.1 数据集与评估指标
我们在 DuRecDial [10 (https://arxiv.org/html/2605.20195#bib.bib6)](中文)和 DuRecDial 2.0 [11 (https://arxiv.org/html/2605.20195#bib.bib13)](英文)上评估我们的方法,这两个数据集都包含多轮对话,并结合了领域知识和用户画像以支持主动的目标导向交互。我们采用 [15 (https://arxiv.org/html/2605.20195#bib.bib4)] 标注的版本,并在表1 (https://arxiv.org/html/2605.20195#S4.T1) 中总结了数据集细节。遵循先前工作,回复生成使用**词级 F1** (F1)、**BLEU-1/2**、**distinct** (DIST-1/2)、**知识-F1** (Know. F1) 和**目标成功率** (Succ.) 进行评估。对话路径规划使用**准确率** (Acc.) 和**二元文法准确率** (Bi. Acc.) 进行评估。
### 4.2 基线
我们的回复生成基线包括:**MGCG**[10 (https://arxiv.org/html/2605.20195#bib.bib6)],根据下一个动作和主题引导系统对话生成;**KERS**[21 (https://arxiv.org/html/2605.20195#bib.bib12)],通过多个子目标增强推荐对话系统;**TPC-BART** 和 **TPC-GPT**[15 (https://arxiv.org/html/2605.20195#bib.bib4)],分别先规划对话路径然后使用 BART 和 GPT-2 微调生成;**BART**[6 (https://arxiv.org/html/2605.20195#bib.bib24)],一个编码器-解码器预训练语言模型用于文本生成;**GPT-2**[13 (https://arxiv.org/html/2605.20195#bib.bib14)],一个自回归预训练模型用于语言生成;**DialoGPT**[22 (https://arxiv.org/html/2605.20195#bib.bib26)](中文版 **CDial-GPT**[18 (https://arxiv.org/html/2605.20195#bib.bib25)]),在大规模对话语料上预训练;以及 **LLaMA-3**[5 (https://arxiv.org/html/2605.20195#bib.bib22)],一个广泛使用的大语言模型家族。我们实验了两个版本:LLaMA-1B 和 LLaMA-3B。对于对话路径规划,我们的基线包括:**MGCG**[10 (https://arxiv.org/html/2605.20195#bib.bib6)],使用卷积网络预测下一个动作和主题;**KERS**[21 (https://arxiv.org/html/2605.20195#bib.bib12)],使用基于 Transformer 的网络预测下一个动作和主题;**BERT**[3 (https://arxiv.org/html/2605.20195#bib.bib23)],一个用于预测下一个动作和主题的编码器;**GPT-2**[13 (https://arxiv.org/html/2605.20195#bib.b相似文章
ReacTOD: 用于零样本对话状态跟踪的有界神经符号智能NLU
ReacTOD提出了一种用于零样本对话状态跟踪的有界神经符号架构,采用带有确定性验证的自校正ReAct循环。它在MultiWOZ和Schema-Guided Dialogue基准上取得了最先进的结果,将联合目标准确率提升了多达14个百分点。
通过对话场景建模和意图-关键词桥接增强目标导向主动对话系统
本文提出了一种方法,通过将用户画像和领域知识共同建模为对话场景,并采用意图-关键词桥接技术来预测未来的对话轮次,从而增强目标导向的主动对话系统。
Context-Agent: 用于非线性对话的动态话题树
Context-Agent提出了一种新颖框架,将多轮对话历史建模为动态树结构而非扁平序列,更好地捕捉自然对话的层级性和分支性特征。该论文引入NTM基准来评估非线性对话场景,并展示了在各种LLM上的任务完成率和令牌效率的提升。
全双工语音对话模型中的同步与话轮转换
本文通过模拟两个Moshi模型实例之间的对话,利用CKA测量表征对齐并使用LSTM探针预测话轮边界,分析了全双工语音对话模型中的同步与话轮转换动态。
ParaBridge:弥合语音语言模型中副语言感知与对话行为之间的鸿沟
ParaBridge是一种基于策略的自蒸馏方法,旨在弥合语音语言模型中副语言感知与对话行为之间的差距,在不依赖外部奖励的情况下显著提升安全性和共情能力。