通过对话场景建模和意图-关键词桥接增强目标导向主动对话系统
摘要
本文提出了一种方法,通过将用户画像和领域知识共同建模为对话场景,并采用意图-关键词桥接技术来预测未来的对话轮次,从而增强目标导向的主动对话系统。
arXiv:2605.11964v1 公告类型:new
摘要:目标导向主动对话系统旨在主动引导对话走向预设目标,如指定的关键词或特定主题。在引导式对话中,动态建模对话场景和意图关键词以指导系统话语生成是有益的;然而,现有研究很大程度上忽略了这一方面,导致与真实世界对话的动态性不匹配。在本文中,我们将用户画像和领域知识共同建模为对话场景,以引入动态影响系统话语的场景偏差,并采用意图-关键词桥接技术来预测即将到来的对话轮次的意图关键词,提供更高级别和更灵活的指导。大量的自动评估和人工评估证明了对话场景建模和意图-关键词桥接的有效性,显著提高了目标导向主动对话系统的主动性、流畅性和信息丰富度,从而缩小了与真实世界交互的差距。
查看缓存全文
缓存时间: 2026/05/13 06:20
# 通过对话场景建模与意图关键词桥接增强目标导向的主动对话系统
来源:https://arxiv.org/html/2605.11964
Maodong Li${}^{1,2}$, Yancui Li${}^{3}$, Fang Kong${}^{1,2}$
${}^1$ 苏州大学计算机科学与技术学院,中国
${}^2$ 江苏省语言计算重点实验室,中国苏州 215123
${}^3$ 河南师范大学计算机与信息工程学院,中国
\{20254027002@stu,kongfang@\}suda\.edu\.cn, liyancui@htu\.edu\.cn
###### 摘要
目标导向的主动对话系统旨在主动将对话引导至预定义的目标,例如指定的关键词或特定话题。在引导对话过程中,动态建模对话场景和意图关键词以指导系统话语生成是有益的;然而,现有工作大多忽视了这一方面,导致与真实世界对话的动态性不匹配。在本文中,我们将用户画像和领域知识共同建模为对话场景,引入一种场景偏差以动态影响系统话语,并采用意图-关键词桥接来预测后续对话轮次的意图关键词,从而提供更高层次且更灵活的指导。大量的自动评估和人工评估证明了对话场景建模和意图-关键词桥接的有效性,为目标导向的主动对话系统带来了在主动性、流畅性和信息丰富度方面的显著改善,从而缩小了与现实世界交互的差距。
**增强通过对话场景建模与意图关键词桥接的目标导向主动对话系统**
Maodong Li${}^{1,2}$, Yancui Li${}^{3}$, Fang Kong${}^{1,2}$
*††感谢:通讯作者*
${}^1$ 苏州大学计算机科学与技术学院,中国
${}^2$ 江苏省语言计算重点实验室,中国苏州 215123
${}^3$ 河南师范大学计算机与信息工程学院,中国
\{20254027002@stu,kongfang@\}suda\.edu\.cn, liyancui@htu\.edu\.cn
## 1 引言
目标导向的主动对话系统旨在主动将对话引导至预定义的目标,如指定的关键词或特定话题 [Wang et al. (2024)](https://arxiv.org/html/2605.11964#bib.bib1); [Zhang et al. (2025)](https://arxiv.org/html/2605.11964#bib.bib8); [Kang et al. (2026)](https://arxiv.org/html/2605.11964#bib.bib41)。与被动响应用户相比,主动引导更符合现实世界的交互模式,并能增强用户参与度 [Wu et al. (2025a)](https://arxiv.org/html/2605.11964#bib.bib9)。此类系统长期以来一直是自然语言处理的焦点,并已应用于推荐系统、情感对话和医疗咨询等多样化领域 [Dao et al. (2024)](https://arxiv.org/html/2605.11964#bib.bib10); [Xue et al. (2024)](https://arxiv.org/html/2605.11964#bib.bib12); [Hao and Kong (2025)](https://arxiv.org/html/2605.11964#bib.bib11); [Wu et al. (2025b)](https://arxiv.org/html/2605.11964#bib.bib40)。

**图 1:** 目标导向主动对话系统的示例,红色高亮部分表示与当前对话相关的片段,我们在附录 H (https://arxiv.org/html/2605.11964#A8) 中进行了详细分析。
[图 1](https://arxiv.org/html/2605.11964#S1.F1) 展示了一个目标导向主动对话系统的示例。当用户产生新话语时,系统基于对话上下文预测未来几步的意图关键词,表示为一个序列(例如,音乐推荐 – 《悲伤的钢琴》→ 播放音乐 – 《悲伤的钢琴》→ 道别)。在本文中,我们称之为意图关键词,它们指示系统预期的未来行为。同时,系统根据用户画像和领域知识动态选择兴趣点,并相应地影响系统话语,以确保与当前上下文保持一致 ${}^{1}$,从而在保持用户参与度的同时,引导对话实现预定义目标。
${}^{1}$ 我们使用术语“话语(utterance)”而不是“响应(response)”,以更好地捕捉我们设定中的主动引导特性。
大多数以前的关于目标导向主动对话系统的研究侧重于基于静态实体的关键词规划 [Tang et al. (2019)](https://arxiv.org/html/2605.11964#bib.bib14); [Yang et al. (2022)](https://arxiv.org/html/2605.11964#bib.bib13)。这些关键词指示下一个系统话语应关注的实体,但有关系统预期话语的信息有限。随后,[Wang et al. (2023b)](https://arxiv.org/html/2605.11964#bib.bib16); [Dao et al. (2023)](https://arxiv.org/html/2605.11964#bib.bib15) 采用更具语义性的关键词来指导系统话语生成,我们将其称为意图关键词,因为它们通过更高层级的指导指示系统的预期行为。虽然 [Wang et al. (2023a)](https://arxiv.org/html/2605.11964#bib.bib2), [2024](https://arxiv.org/html/2605.11964#bib.bib1) 利用了意图关键词,但它们在指导话语生成时仅关注下一轮的意图关键词,忽略了后续轮次及其意图关键词通常具有一致性和连贯性的事实。同时考虑多个后续轮次的意图关键词将提供更大的灵活性。此外,系统的话语应与用户画像和领域知识保持一致 [Zhang et al. (2025)](https://arxiv.org/html/2605.11964#bib.bib8),后者依赖于外部模型;相反,我们共同建模用户画像和领域知识,保持这种一致性以提高主动性并增强参与度。
为此,我们引入了**对话场景**的概念,以捕捉当前交互的对话背景,以及**意图-关键词桥接**,以动态预测未来几个对话轮次的意图关键词。如图 [1](https://arxiv.org/html/2605.11964#S1.F1) 所示,我们将用户画像和领域知识共同建模为对话场景,并动态影响系统话语,确保生成的话语与正在进行的场景保持一致。与静态规划不同,我们的意图-关键词桥接动态预测即将到来的对话轮次的意图关键词,提供更高层级且更灵活的指导。大量的自动和人工评估证明了对话场景建模和意图-关键词桥接的有效性,为目标导向的主动对话系统带来了在主动性、流畅性和信息丰富度方面的显著改善。
我们的贡献总结如下:
- 我们通过共同建模用户画像和领域知识来呈现对话场景,引入一种动态影响系统话语的偏差,从而实现更精确的主动性并增强用户参与度。
- 我们提出了意图-关键词桥接,以动态预测即将到来的对话轮次的意图关键词,提供更高层级且更灵活的指导 ${}^{2}$。
${}^{2}$ https://github\.com/imaodong/EnTarget\-Guided\_Proactive\_Dialog\.
## 2 方法论
我们的框架如图 [2](https://arxiv.org/html/2605.11964#S2.F2) 所示。它包含两个组件:**对话场景建模 (CSM)** 和 **意图-关键词桥接 (IKB)**。在 CSM 中,我们将用户画像和领域知识共同建模为对话场景,引入一种动态影响系统话语的偏差。这确保了生成的话语与正在进行的场景保持一致,实现更精确的主动性并增强用户参与度。在 IKB 中,基于对话场景和对话历史动态预测未来几轮的意图关键词,捕捉下一轮预期的行为并前瞻几步的动作,从而提供更高层级且灵活的指导。
### 2.1 任务公式化与符号表示
假设 $D=\{r^{(i)}, h^{(i)}, g^{(i)}, S^{(i)}, Z_{0:m}^{(i)}\}_{i=1}^N$ 是一个包含 $N$ 个样本的目标导向对话数据集,其中 $r^{(i)}$ 表示系统话语,$h^{(i)}$ 表示对话历史,$g^{(i)}$ 表示预定义的对话目标。$S^{(i)}=(u^{(i)}, k^{(i)})$ 表示对话场景,由用户画像 $u^{(i)}$ 和领域知识 $k^{(i)}$ 组成,$Z_{0:m}^{(i)}$ 表示关键词桥接序列,其中 $m$ 代表经验确定的未来轮次意图关键词的数量。任务是生成系统话语 $r^{(i)}$ 以引导对话实现 $g^{(i)}$,同时保持主动性、参与度和自然性。
### 2.2 对话场景建模
对话场景捕捉当前交互的对话背景。据我们所知,这项工作是首次将用户画像和领域知识共同建模为对话场景,因为它们共同决定了用户和系统当前的交互状态。对话场景引入了一种动态影响系统话语的偏差,使系统能够采取更精确的主动性,增强用户参与度,并确保生成的话语与正在进行的场景保持一致。
令 $\text{Enc}(\cdot)$ 表示 T5 编码器 [Chung et al. (2022)](https://arxiv.org/html/2605.11964#bib.bib3) 主干;因此建模过程可以形式化为如下公式:
$$
\mathbf{b}=\text{Softmax}(\mathbf{B}\cdot(\mathcal{F}_{k}(\mathbf{H}^{k})+\mathcal{F}_{u}(\mathbf{H}^{u}))) \quad (1)
$$
$$
\mathbf{H}^{k}, \mathbf{H}^{u}, \mathbf{H}^{h}=\text{Enc}(k), \text{Enc}(u), \text{Enc}([h; g]) \quad (2)
$$
其中 $\mathbf{H}^{k} \in \mathbb{R}^{l_{k} \times d}$, $\mathbf{H}^{u} \in \mathbb{R}^{l_{u} \times d}$, 和 $\mathbf{H}^{h} \in \mathbb{R}^{l_{h} \times d}$ 分别表示领域知识、用户画像和对话历史的隐藏状态。这里,$l_{k}$ 和 $l_{u}$ 分别表示领域知识和用户画像的长度,而 $l_{h}$ 表示对话历史和对话目标的长度。变量 $d$ 代表隐藏维度。$\mathcal{F}_{k}(\cdot)$ 和 $\mathcal{F}_{u}(\cdot)$ 是使用平均池化后接多层感知机实现的映射函数。然后 $\mathcal{F}_{k}(\mathbf{H}^{k})$ 和 $\mathcal{F}_{u}(\mathbf{H}^{u})$ 通过逐元素加法共同构成所提出的对话场景偏差 $\mathbf{b} \in \mathbb{R}^{1 \times \mathcal{V}}$。这里,$\mathbf{B}$ 表示可训练参数,$\mathcal{V}$ 表示词汇表大小。
### 2.3 意图-关键词桥接
意图-关键词桥接作为对话历史与系统未来行为之间的桥梁 [Sevegnani et al. (2021)](https://arxiv.org/html/2605.11964#bib.bib29),我们利用它来动态预测即将进行的对话轮次的意图关键词。我们使用由关键词类型 (keyword-type) 和关键词主题 (keyword-topic) 组成的意图关键词 [Liu et al. (2021)](https://arxiv.org/html/2605.11964#bib.bib24)。
令 $A=\{a_{1}, a_{2}, \dots, a_{x_{a}}\}$ 和 $T=\{t_{1}, t_{2}, \dots, t_{x_{t}}\}$ 分别表示关键词类型和关键词主题的集合,其中 $x_{a}$ 和 $x_{t}$ 代表它们对应的基数。我们使用 $\zeta(\cdot)$ 来表示选择相应的关键词类型/主题索引,关键词类型/主题的提取可以形式化为:
$$
\mathbf{E}^{a}, \mathbf{E}^{t}=\text{Emb}_{a}(\zeta(A), \text{Emb}_{t}(\zeta(T)) \quad (3)
$$
$$
A=\text{CLS}_{a}(\text{IF}(\textbf{H}^{h}, \mathcal{F}_{k}(\mathbf{H}^{k}), \mathcal{F}_{u}(\mathbf{H}^{u}))) \quad (4)
$$
$$
T=\text{CLS}_{t}(\text{IF}(\textbf{H}^{h}, \mathcal{F}_{k}(\mathbf{H}^{k}), \mathcal{F}_{u}(\mathbf{H}^{u}))) \quad (5)
$$
其中 $\mathbf{E}^{a} \in \mathbb{R}^{m \times d}$ 和 $\mathbf{E}^{t} \in \mathbb{R}^{m \times d}$ 分别表示关键词类型和关键词主题的嵌入,$m$ 表示指定要预测的未来轮次数量的超参数。$\text{CLS}_{a}(\cdot)$ 和 $\text{CLS}_{t}(\cdot)$ 分别表示关键词类型和关键词主题的分类头,$\text{IF}(\cdot)$ 表示信息融合机制,遵循 [Wang et al. (2023a)](https://arxiv.org/html/2605.11964#bib.bib2)。得到的桥接意图关键词形式化为如下:
$$
\mathbf{H}^{z}=\text{CONCAT}(\mathbf{H}^{a}; \mathbf{H}^{t}) \quad (6)
$$
$$
\mathbf{H}^{a}, \mathbf{H}^{t}=\text{MP}(\mathbf{E}^{a}), \text{MP}(\mathbf{E}^{t}) \quad (7)
$$
其中 $\mathbf{H}^{a} \in \mathbb{R}^{1 \times d}$, $\mathbf{H}^{t} \in \mathbb{R}^{1 \times d}$, 和 $\mathbf{H}^{z} \in \mathbb{R}^{2 \times d}$ 分别表示关键词类型、关键词主题和意图关键词的隐藏状态。$\text{MP}(\cdot)$ 表示最大池化操作。通过动态预测 $m$ 个意图关键词并应用最大池化,我们获得了对下一轮最相关的桥接意图关键词 $\mathbf{H}^{z}$,同时考虑了接下来的 $m$ 轮。
我们框架的最后一步,生成系统话语,可以表示为 ${}^{3}$:
$$
r_{t}=\arg \max P(r_{t} | r_{<t}, \dots)
$$
${}^{3}$ 实现细节见附录 B (https://arxiv.org/html/2605.11964#A2)。
**表 15:** 案例研究中领域知识建模 $\mathcal{F}_{k}(\mathbf{H}^{k})$ 的可视化 (ID)。
姓名:Ping Shan Han
年龄范围:18-25
性别:女
居住地:南通
职业:就业
接受的明星:Leslie Cheung
接受的电影:《阿飞正传》;《东邪西毒》;《春光乍泄》
拒绝的电影:《双截侠》
接受的食物:腌鱼
接受的 POI:lahuangshang 辣锅烤鱼
喜欢的新闻:Leslie Cheung 的最新消息等。
**表 16:** 案例研究中用户画像建模 $\mathcal{F}_{u}(\mathbf{H}^{u})$ 的可视化 (OOD)。
*粗体* 高亮显示被用户画像建模识别为相关的信息。
等。
**表 17:** 案例研究中领域知识建模 $\mathcal{F}_{k}(\mathbf{H}^{k})$ 的可视化 (OOD)。
| 数据集 | 模型 | ID 测试集 | | OOD 测试集 | |
| :--- | :--- | :--- | :--- | :--- | :--- |
| | | F1 (关键词类型) | F1 (关键词主题) | F1 (关键词类型) | F1 (关键词主题) |
| DuRecDial | LLaMA | 98.23 | 97.43 | 98.45 | 97.31 |
| DuRecDial2.0 | LLaMA | 98.42 | 96.68 | 98.37 | 92.47 |
**表 18:** 意图关键词预测性能。
## 附录 H 案例研究
为了更清晰、直观地评估我们框架的性能,我们在 ID 和 OOD 测试集上进行了另一次案例研究,如图 [8](https://arxiv.org/html/2605.11964#A7.F8) 所示。值得注意的是,案例研究采用困难模式,以便与 T5-Flan 进行更清晰的比较。使用 OOD 测试集中的示例,图 [8](https://arxiv.org/html/2605.11964#A7.F8) 进一步验证了即使面对训练期间未遇到的目标话题,我们的框架也能显著改善对话的主动性、流畅性和信息丰富度。在对话开始时,基线模型 T5-Flan 出现了事实错误(是刘德华...)相似文章
提示-激活对偶性:通过注意力层干预改进激活引导
本文识别出KV缓存污染是对话中激活引导的一种失败模式,并提出了GCAD方法,该方法从提示贡献中提取引导信号,并应用词元级门控来改进长程连贯性,在多轮基准上取得了显著提升。
用于评估自闭症社交语言障碍特征的前瞻性多智能体对话框架
本文介绍了TPA (Think, Plan, Ask),一种前瞻性多智能体对话框架,利用LLMs通过选择基于临床的提问策略,系统地揭示自闭症中潜在的社交语言障碍特征。它实现了82.1%的特征覆盖率,优于临床医生的真实临床对话。
在对话前了解你:面向多轮对话中LLM个性化的用户状态建模
本文提出PUMA,一个用于多轮对话中LLM个性化的框架,该框架建模潜在用户状态,并利用自由能原理选择对话行为,在医疗咨询基准测试中提升了长程对话效果。
SKG-Eval:基于增量语义知识图谱的多轮对话状态化评估
提出SKG-Eval,一种用于多轮对话的准确定性评估框架,利用增量语义知识图谱检测跨轮不一致性、矛盾及主题漂移,实现与人类判断更高的相关性。
Context:通过可组合沙箱程序、声明式布线及结构化交互实现主动目标导向智能
本文介绍了Context——一种替代反应式聊天机器人的主动目标导向智能体新架构。通过可组合沙箱程序、声明式布线和主动状态机,本文给出了证明效率提升的形式化定理,并提供了开源实现。