ReacTOD: 用于零样本对话状态跟踪的有界神经符号智能NLU

arXiv cs.CL 2026/05/20 04:00 论文

neuro-symbolic agentic zero-shot dialogue-state-tracking nlu task-oriented-dialogue

摘要

ReacTOD提出了一种用于零样本对话状态跟踪的有界神经符号架构，采用带有确定性验证的自校正ReAct循环。它在MultiWOZ和Schema-Guided Dialogue基准上取得了最先进的结果，将联合目标准确率提升了多达14个百分点。

arXiv:2605.19077v1 公告类型：新论文摘要：任务型对话系统——处理交易、预订和服务请求——需要可预测的行为，然而实际延迟所需的中等规模LLM容易产生幻觉和格式错误，这些错误会级联导致错误操作（例如，酒店预订了错误的日期）。我们提出ReacTOD，一种有界神经符号架构，它将NLU重新表述为在由确定性验证控制的自我修正ReAct循环内的离散工具调用。有界ReAct循环使得迭代自我修正成为可能，在MultiWOZ上相比单次推理准确率提升了多达9.3个百分点。符号验证器在每个对话状态更新上强制执行行动合规性、模式一致性和指代一致性，在被拦截错误上实现了93.1%的自我修正率，并生成结构化执行轨迹。增量状态预测和按需历史检索保持提示简洁，经验上提高了参数受限模型中的指令遵循能力。在MultiWOZ 2.1上，ReacTOD达到了新的零样本最先进水平：gpt-oss-20B达到52.71%的联合目标准确率，超过此前最好成绩14个百分点，而Qwen3-8B仅用8B参数就达到47.34%。在Schema-Guided Dialogue (SGD)基准上，使用Claude-Opus-4.6的ReacTOD在带有预测领域的完全端到端评估下达到80.68%的JGA，而Qwen3-32B达到64.09%——展示了无需任务特定训练数据的跨基准泛化能力。

查看原文

查看缓存全文

缓存时间: 2026/05/20 08:23

# ReacTOD：用于零样本对话状态跟踪的受限神经符号代理NLU  
来源：https://arxiv.org/html/2605.19077  
Yanjun Lin\*Zimo Xiao\*Kartik Natarajan Mahesh Sankaranarayanan Niraj Nawanit Rakshit Parashar Austin Zhang Karthik Konaraddi Rishita Mote Wei Niu  

Amazon \{linyj, zimoxiao, kartikn, sankmahe, nawanit, chillorb, auszhang, kartkon, rmote, niuwei\}@amazon\.com  

###### 摘要  

任务导向的对话系统——处理交易、预订和服务请求——需要可预测的行为，然而实际延迟所需的适中规模的LLM容易出现幻觉和格式错误，这些错误会级联成错误操作（例如，酒店预订了错误日期）。我们提出ReacTOD，一种受限的神经符号架构，将NLU重构为在确定性验证控制的自我纠正ReAct循环内的离散工具调用。受限的ReAct循环实现迭代自我纠正，在MultiWOZ上比单次推理提高了多达9.3个百分点的准确率。符号验证器强制执行动作合规性、模式一致性和指代一致性，对每个对话状态更新拦截错误，达到93.1%的自我纠正率，并生成结构化执行轨迹。增量状态预测和按需历史检索保持提示紧凑，经验上提高了参数受限模型中的指令遵循能力。在MultiWOZ 2.1上，ReacTOD实现了新的零样本最先进结果：gpt-oss-20B达到52.71%的联合目标准确率，超过之前最佳结果14个百分点，而Qwen3-8B仅用8B参数就达到47.34%。在模式引导对话（SGD）基准上，ReacTOD与Claude-Opus-4.6在完全端到端评估中达到80.68%的JGA（使用预测域），而Qwen3-32B达到64.09%——展示了无需任务特定训练数据的跨基准泛化能力。

ReacTOD：用于零样本对话状态跟踪的受限神经符号代理NLU  

Yanjun Lin\*Zimo Xiao\*Kartik Natarajan Mahesh Sankaranarayanan Niraj Nawanit Rakshit Parashar Austin Zhang Karthik Konaraddi Rishita Mote Wei Niu  
Amazon \{linyj, zimoxiao, kartikn, sankmahe, nawanit, chillorb, auszhang, kartkon, rmote, niuwei\}@amazon\.com  

11footnotetext:同等贡献。  

## 1 引言  

部署在生产环境中的任务导向对话（TOD）系统——处理酒店预订、餐厅预订和交通安排——需要可预测、可验证的NLU行为：一个错误解析的槽值（例如，从错误轮次推断的入住日期）会传播到下游API调用，产生静默失败或错误交易。这种对可靠输出的需求历史上推动了判别式、流水线式自然语言理解（NLU）架构的主导地位，其中像BERT这样的提取模型在固定标签集上作为顺序任务执行意图分类（IC）和槽位解析（SR）。虽然这些流水线提供亚秒级延迟和高可预测性，但它们依赖大量域特定标注数据，并且需要重新训练以适应新意图或语言变化——限制了零样本泛化。

为了超越静态本体，最近的工作转向生成式、LLM驱动的提示方法用于零样本NLU。像FnCTOD（Liet al.,2024 (https://arxiv.org/html/2605.19077#bib.bib21)）这样的框架将域逻辑重构为可执行函数，利用上下文学习。然而，单次生成方法存在概率变化和忠实幻觉问题，其中模型自信地推断未陈述的实体值以完成模式，在错误状态值传播到下游API调用的生产对话流水线中构成重大风险。此外，真实对话的语言复杂性（跨轮次指代、隐式值接受、非线性域切换）需要多步推理和动态上下文检索。无界代理框架原则上可以解决这些现象，但它们对开放推理循环和前沿规模模型的依赖引入了不切实际的延迟和计算开销。

我们认为，提高基于LLM的DST的可靠性并不主要需要更大的模型，而是需要对推理过程更强的架构控制。我们的关键见解是，对话状态跟踪中的LLM错误主要是局部的且可纠正的——错误的格式时间值或无效的槽位名称，而不是对对话的根本误解。基于这一见解，我们提出ReacTOD，一种混合神经符号NLU架构，将NLU分解为在受限ReAct式推理循环内的离散工具调用，减少了LLM每步的负担。确定性验证器在任何状态变化之前拦截所有工具输出，强制执行动作合规性、模式一致性和指代一致性——使模型能够从结构化错误反馈中进行自我纠正，而不需要重新处理整个对话。这种受限设计降低了每步所需的推理能力，使参数高效模型（例如Qwen3-8B）无需前沿规模计算就能实现稳健的代理状态跟踪。架构细节在第3节（https://arxiv.org/html/2605.19077#S3）中呈现，并在图LABEL:fig:overview中说明。

我们在MultiWOZ 2.1和模式引导对话（SGD）基准上以零样本设置评估我们的架构——没有标注对话、没有微调、没有域内示例——使用动态模式注入，在五个骨干模型上评估，范围从8B到前沿规模。在MultiWOZ 2.1上，ReacTOD与gpt-oss-20B达到52.71%的联合目标准确率（JGA），超过之前零样本最先进结果（FnCTOD与GPT-4，38.71%）14个百分点（pp）。即使Qwen3-8B也达到47.34%的JGA——超过了使用4倍更大的Qwen3-32B的FnCTOD（40.36%）——证明了增益来自架构设计而非模型规模。在SGD上，ReacTOD与Claude-Opus-4.6达到80.68%的JGA，优于使用黄金域标签的复现SRP基线（45.20%），并且ReAct循环对单次推理贡献了多达11.82个百分点，确认了无需任务特定训练数据的跨基准泛化能力。总之，我们的贡献有三方面：

1. 受限代理推理：我们引入了一种受限的ReAct架构，将NLU分解为带迭代自我纠正的离散工具调用，实现了超过单次推理的错误恢复——消融实验显示出多达9.3个百分点的提升。
2. 确定性验证：我们设计了一个符号验证器，它控制所有状态变化，强制执行动作合规性、模式一致性和指代一致性，在常见LLM错误（例如无效工具调用、幻觉槽位名称）到达对话状态之前捕获它们。
3. 参数高效零样本DST：我们证明增量状态预测和按需上下文检索使提示保持紧凑，使得小至8B参数的模型能超越之前基于更大LLM的零样本基线。ReacTOD在MultiWOZ 2.1上建立了新的最先进结果，并在SGD上无需任务特定训练数据就实现了强大的跨基准性能，只需要机器可读的域模式。

## 2 相关工作  

### 2.1 从流水线NLU到生成式状态跟踪  

早期企业NLU将IC和SR视为在固定标签集上的顺序分类任务。JointBERT（Chenet al.,2019 (https://arxiv.org/html/2605.19077#bib.bib14)）通过共享编码器统一了两者，而轻量变体则针对资源受限设备（Huanget al.,2022 (https://arxiv.org/html/2605.19077#bib.bib9)）。这些判别式流水线提供了确定性，但它们依赖于预定义词汇表，在分布外输入上退化，并排除了零样本泛化。生成式序列到序列模型放宽了这一约束：TRADE（Wuet al.,2019 (https://arxiv.org/html/2605.19077#bib.bib15)）通过指针生成器网络实现了跨域槽位转移，SimpleTOD（Hosseini-Aslet al.,2022 (https://arxiv.org/html/2605.19077#bib.bib16)）和SOLOIST（Penget al.,2021 (https://arxiv.org/html/2605.19077#bib.bib17)）将流水线合并为单个自回归目标。然而，这些方法仍然需要大量的域内微调，使得零样本适应性仍然是一个开放挑战。

### 2.2 LLM驱动的提示和知识蒸馏  

指令调优的LLM通过上下文学习实现了零样本DST。D3ST（Zhaoet al.,2022 (https://arxiv.org/html/2605.19077#bib.bib19)）和Luet al.（2024 (https://arxiv.org/html/2605.19077#bib.bib11)）用自然语言描述替换了模式符号表示，SERI-DST（Lee and Lee,2024 (https://arxiv.org/html/2605.19077#bib.bib20)）动态检索对话示例，而FnCTOD（Liet al.,2024 (https://arxiv.org/html/2605.19077#bib.bib21)）通过将域视为可执行函数建立了零样本最先进结果。然而，单次生成方法存在概率变化和忠实幻觉问题——自信地推断未陈述的实体值以完成模式（Jiet al.,2023 (https://arxiv.org/html/2605.19077#bib.bib12)）——在错误状态值传播到下游API调用的生产对话系统中构成可靠性风险。知识蒸馏方法（Xuet al.,2025b (https://arxiv.org/html/2605.19077#bib.bib8); Aguirreet al.,2024 (https://arxiv.org/html/2605.19077#bib.bib10)）通过在LLM生成的数据上训练较小的学生模型来降低推理成本，但将模式硬编码到模型权重中，牺牲了零样本灵活性。

### 2.3 工具增强代理和神经符号集成  

ReAct（Yaoet al.,2023 (https://arxiv.org/html/2605.19077#bib.bib18)）证明了LLM可以将推理轨迹与任务特定动作交织在一起，但在TOD中部署无界代理引入了可靠性风险。Elizabethet al.（2025 (https://arxiv.org/html/2605.19077#bib.bib22)）表明，尽管响应流畅，基于ReAct的代理在任务成功指标上常常不如结构化基线，而虽然LLM表现出自我精炼能力（Madaanet al.,2023 (https://arxiv.org/html/2605.19077#bib.bib13)），没有外部基础的自我评估容易受确认偏差影响。这些发现激发了我们的核心设计原则：将LLM限制在狭窄范围的工具中介子任务中，并通过确定性符号验证器控制所有状态变化。

## 3 方法论  

我们的关键见解是，对话状态跟踪中的LLM错误主要是局部的且可纠正的——错误的格式时间值或无效的槽位名称，而不是对对话的根本误解。通过将NLU分解为在受限ReAct循环内的离散工具调用，我们使代理能够接收来自确定性验证器的结构化反馈，并迭代修复此类错误，而不需要模型重新处理整个对话上下文。这一原则激发了一种受限的神经符号架构，它将自然语言理解（NLU）流水线分离为独立、可验证的任务，通过受限的ReAct式状态机编排它们，并通过确定性验证控制所有状态变化。

### 3.1 问题形式化和架构概述  

给定由用户话语u_t、先前的系统动作a_{t-1}、持续信念状态B_{t-1}和意图i_{t-1}组成的对话轮次，我们的架构将NLU形式化为顺序的、工具增强的策略π(a|s)，其动作空间A限于工具库T：

a_k ∼ π(·|u_t, a_{t-1}, B_{t-1}, i_{t-1}, H_{<k}), a_k ∈ T (1)

其中H_{<k}表示直到推理步骤k的代理动作-观察轨迹。与联合预测意图、槽位和模式格式的单次方法不同，这种分解将每个子任务隔离为单独的、可验证的工具调用。如图2 (https://arxiv.org/html/2605.19077#S3.F2)所示，工具调用先由确定性验证器V（§3.4 (https://arxiv.org/html/2605.19077#S3.SS4)）验证，然后才执行，只有经过验证的τ_SR结果才被允许更新B_t，从而将状态跟踪从无界序列生成转换为受限的神经符号验证循环。

增量信念状态预测。为了降低每轮复杂度，模型只预测增量更新ΔB_t（新提及或改变的槽位），完整状态恢复为B_t = B_{t-1} ∪_upsert ΔB_t。

动态上下文构建。先前的工作表明，更短、更聚焦的提示能提高较小LLM中的指令遵循能力（Xuet al.,2025a (https://arxiv.org/html/2605.19077#bib.bib30)）。受此发现启发，我们动态地为每个工具构建上下文窗口，而不是事先提供完整的模式和历史。意图定义包含在系统提示中，但槽位描述仅在槽位解析时对当前活动的意图注入，避免了不相关的模式噪音。对话历史默认不包含；相反，代理通过专用历史工具τ_H按需检索历史，仅当指代解析需要先前的上下文时才使用。这种惰性加载策略使提示保持最小化——通常只包含当前模式、信念状态B_{t-1}、先前系统话语a_{t-1}和当前用户话语u_t——减少了参数高效模型的认知负载。

系统提示• 指令 • 意图列表 • 工具定义 对话上下文 • u_t（话语） • a_{t-1}（系统动作） • B_{t-1}（信念状态） • i_{t-1}（活动意图） LLM代理 ReAct循环：思考→动作→观察 验证器 动作 模式 指代 τ_IC：意图分类 In: 意图 i_t Out: i_t的槽位定义 τ_SR：槽位解析 In: {(v_raw, v_norm)} Out: 状态更新 ΔB_t τ_H: 历史检索 In: n（轮次） Out: 最后n轮对话 状态 B_t 延迟 upsert-only 工具调用 通过 错误反馈 槽位定义 历史 更新 图2: ReacTOD中的工具定义和数据流。验证器在执行前检查所有工具调用；τ_IC和τ_H的结果反馈给代理用于下一步；只有经过验证的τ_SR输出更新信念状态B_t。无效调用触发错误反馈给LLM进行自我纠正。

### 3.2 神经符号任务细分  

遵循FnCTOD（Liet al.,2024 (https://arxiv.org/html/2605.19077#bib.bib21)）的经验发现——将NLU分解为单独的函数调用比联合预测提高了LLM准确率——我们将意图分类（IC）和槽位解析（SR）功能上分离为不同的生成调用（见图2 (https://arxiv.org/html/2605.19077#S3.F2)）。这种细分限制了LLM每次推理步骤的搜索空间，降低了认知负载，使参数高效模型能够与整体前沿模型达到推理持平。

#### 3.2.1 模式驱动的意图分类（IC）  

IC模块将用户话语u_t映射到目标意图i_t ∈ I，其中I表示

ReacTOD: 用于零样本对话状态跟踪的有界神经符号智能NLU

相似文章

@neural_avb: https://x.com/neural_avb/status/2063907440509571354

SKG-Eval：基于增量语义知识图谱的多轮对话状态化评估

记住，不要重读：用于令牌高效自主实验的有状态ReAct智能体

视觉-语言-动作模型中的闭环神经激活控制

TRN-R1-Zero：仅通过强化学习实现富文本网络推理

提交意见反馈