当数据库失败时:在任务导向对话中提示LLM对话代理进行安全恢复

arXiv cs.CL 论文

摘要

本文研究了一种轻量级的基于提示的恢复方法,用于后端数据库调用失败时的LLM对话代理,表明Guided-Retry策略在六个模型家族上,将MultiWOZ的幻觉降低了50%,SGD降低了42%。

arXiv:2606.31307v1 公告类型:新 摘要:任务导向对话中使用的大语言模型在后端数据库调用失败、返回空结果或表面信息不匹配时,常常会生成流畅但不安全的响应,凭空捏造场所、确认信息或未基于数据库的预订详情。我们研究了一种轻量级的基于提示的恢复方法,无需重新训练或额外模型调用即可提高鲁棒性。我们比较了三种响应策略,其中包括一种基于结构化数据库状态的条件化引导恢复提示,覆盖六个开放权重模型家族(DeepSeek-R1、Gemma-2、Llama-3、Mistral、Phi-3和Qwen-2.5)以及四种数据库状态:空结果、错误领域检索、API错误和干净检索。使用基于两个结构不同数据集(MultiWOZ 2.2(5个领域)和SGD(20个领域))构建的故障注入基准,我们发现简单代理在MultiWOZ上30.5%的失败回合以及SGD上20.9%的失败回合中产生幻觉。我们的Guided-Retry策略在不重新训练的情况下,将MultiWOZ上的幻觉降低了50%(从30.5%降至15.3%),将SGD上的幻觉降低了42%(从20.9%降至12.2%)。然而,残余幻觉仍然显著(各模型在6%-37%之间),其中错误领域检索是最难的情况。结果在两个数据集和全部六个模型家族中保持一致,人工标注显示出高度一致性,同时支持自动承诺安全性指标的有效性。
查看原文
查看缓存全文

缓存时间: 2026/07/01 05:33

# 在任务导向对话中提示LLM对话代理实现安全恢复
来源:https://arxiv.org/html/2606.31307
Mohammad Alijanpour Shalmani1,\*,Alale Rezvani Boroujeni2,Jiann Shiun Yuan1

1中佛罗里达大学工程与计算机科学学院,佛罗里达州奥兰多 2中佛罗里达大学市场营销系,佛罗里达州奥兰多 通讯邮箱:alijanpour@ucf\.edu (https://arxiv.org/html/2606.31307v1/mailto:email@domain)

###### 摘要

用于任务导向对话的大型语言模型在后端数据库调用失败、返回空结果或呈现不匹配信息时,往往会产生流畅但不安全的响应,甚至凭空捏造出数据库中不存在的场所、确认信息或预订详情。我们研究了一种轻量级基于提示的恢复方法,该方法无需重新训练或额外模型调用即可提升鲁棒性。我们比较了三种响应策略,包括一种基于结构化数据库状态进行条件化引导的恢复提示, 覆盖了六个开源模型系列(DeepSeek-R1、Gemma-2、Llama-3、Mistral、Phi-3 和 Qwen-2.5)以及四种数据库条件:空结果、错误域检索、API错误和正确检索。使用基于两个结构不同的数据集(MultiWOZ 2.2(5个域)和SGD(20个域))构建的故障注入基准,我们发现,朴素代理在MultiWOZ上30.5%的失败轮次中产生幻觉,在SGD上则为20.9%。我们的引导重试策略在不重新训练的情况下,将MultiWOZ上的幻觉率降低了50%(30.5→→15.3%),将SGD上的幻觉率降低了42%(20.9→→12.2%)。然而,残余幻觉仍然显著(各模型间为6–37%),其中错误域失败是最难处理的情况。结果在两个数据集和所有六个模型系列上保持一致,人工标注显示出高度一致性,同时支持自动承诺安全性指标的有效性。

当数据库失败时:提示LLM对话代理在任务导向对话中实现安全恢复

Mohammad Alijanpour Shalmani1,\*, Alale Rezvani Boroujeni2, Jiann Shiun Yuan1
1中佛罗里达大学工程与计算机科学学院,佛罗里达州奥兰多
2中佛罗里达大学市场营销系,佛罗里达州奥兰多
通讯邮箱:alijanpour@ucf\.edu (https://arxiv.org/html/2606.31307v1/mailto:email@domain)

## 1 引言

任务导向对话系统帮助用户预订酒店、查找餐厅和安排交通。现代基于LLM的代理(Hudeček and Dušek,2023 (https://arxiv.org/html/2606.31307#bib.bib1))通常遵循标准流程:提取用户意图,查询后端数据库,并生成基于结果的响应。该流程在数据库边界处非常脆弱。实际应用中,后端故障仍可能导致模型产生流畅但无依据的响应,包括虚构的场所、确认信息或预订详情。实际部署时常遇到三种故障模式:(1) 空结果——没有记录匹配用户约束;(2) 错误域返回——数据库路由到了不正确的域(Ericet al\.,2020 (https://arxiv.org/html/2606.31307#bib.bib2));(3) API错误——超时和服务器故障。

## 2 相关工作

先前的研究更广泛地探讨了LLM代理中的工具故障。TRACE/SCOPE(Houet al\.,2025 (https://arxiv.org/html/2606.31307#bib.bib11))识别了当工具返回空结果或超时时的“幻觉回退”。ReliabilityBench(Gupta,2026 (https://arxiv.org/html/2606.31307#bib.bib12))向通用代理任务中注入故障,但未涉及TOD。PALADIN(Vuddantiet al\.,2025 (https://arxiv.org/html/2606.31307#bib.bib13))针对注入的工具故障训练恢复策略。非协作模拟器(Shimet al\.,2025 (https://arxiv.org/html/2606.31307#bib.bib15))在MultiWOZ中对代理进行压力测试,侧重于超出范围的*用户请求*,而非后端执行故障。

据我们所知,先前的工作并未提供一个基于MultiWOZ和SGD的评估:该评估 (i) 注入运行时数据库执行故障而非用户行为压力;(ii) 比较仅通过提示的恢复而不进行重新训练;(iii) 量化在结构化指导下的残余幻觉。

我们做出四项贡献:(1) 在MultiWOZ 2.2和SGD上建立了一个受控的故障注入框架;(2) 评估了六种模型上的三种提示策略;(3) 建立了一套自动化和人工验证的故障恢复指标,包括承诺安全率;(4) 发现结构化提示可以减少但无法消除幻觉,各模型的残余率在6–37%之间。

## 3 方法

### 3.1 数据集与故障注入

我们使用MultiWOZ 2.2(Zanget al\.,2020 (https://arxiv.org/html/2606.31307#bib.bib3))(5个域:酒店、餐厅、出租车、火车、景点)和SGD(Rastogiet al\.,2020 (https://arxiv.org/html/2606.31307#bib.bib4))(20个域,涵盖餐厅、航班、酒店、活动、媒体等)的测试集。对于每个测试对话,我们提取第一个用户轮次,并综合性地注入四种*数据库执行条件之一*,每种条件采样100个对话(每个数据集共400个)。我们使用第一个用户轮次作为一个受控诊断设置,该设置隔离了后端故障下的即时恢复行为,避免了更长对话上下文或多轮状态跟踪带来的额外混淆。

- •干净:数据库返回有效结果。作为健全性基线。
- •空结果:数据库返回零匹配。正确操作:承认失败并提供约束放宽。
- •错误域:数据库返回来自错误域的结果。正确操作:检测到不匹配并与用户确认。
- •API错误:数据库返回超时或503错误。正确操作:道歉并请用户重试。

### 3.2 恢复策略

对于每个模型,所有策略使用相同的解码设置(温度0.2),仅在系统提示上有所不同。

- •朴素:原始数据库响应,无特殊指令。
- •告知:明确指示模型不要产生幻觉,并诚实地承认失败。
- •引导重试:模型接收一个基于DB状态字段的结构化决策过程,包含针对每种故障的明确指示,以及明确禁止捏造场所名称、预订编号或确认详情。

我们评估了来自六个组织的六个开源模型系列:DeepSeek-R1(Guoet al\.,2025 (https://arxiv.org/html/2606.31307#bib.bib5))、Gemma-2(Gemma Team, Google DeepMind,2024 (https://arxiv.org/html/2606.31307#bib.bib6))、Llama-3(Meta Llama Team,2024 (https://arxiv.org/html/2606.31307#bib.bib7))、Mistral(Jianget al\.,2023 (https://arxiv.org/html/2606.31307#bib.bib8))、Phi-3(Abdinet al\.,2024 (https://arxiv.org/html/2606.31307#bib.bib9))和Qwen-2.5(Qwen Team,2024 (https://arxiv.org/html/2606.31307#bib.bib10))。

### 3.3 指标

我们使用四个互补指标来评估恢复质量,这些指标涵盖了幻觉、行为恰当性、承诺安全性和用户摩擦。HR(幻觉率):非干净轮次中代理虚构数据库响应中不存在的结果的比例,通过正则表达式模式检测。AAR(恰当行为率):匹配每种故障类型地面真实正确行为的比例,通过关键词启发式评估。CSR(承诺安全率):非干净轮次中不包含明确虚假承诺(例如,虚构的预订编号、确认信息或其他预订风格的承诺用语)的比例。

在当前的自动实现中,CSR比HR更窄:它仅检测明确的预订风格虚假承诺,因此响应可能增加HR而不减少CSR。CSR由九名人工标注员对60个采样响应进行评分验证;标注员间一致性κ=0.7672\\kappa=0.7672。

UFS(用户摩擦分数):综合评分0–3(越低越好):+2表示幻觉,+1表示静默失败。统计显著性使用配对测试在匹配的故障注入对话实例上进行评估(α=0.05\\alpha=0.05)。

#### 统计检验。

对于每个模型独立地,我们将引导重试与朴素策略在匹配的故障注入对话实例上进行对比,即相同的测试轮次在相同的故障条件下使用两种策略进行评估。对于二元指标HR和AAR,我们使用McNemar精确检验。对于UFS,我们使用双尾配对t检验。我们在所有六个模型上观察到相同的显著性模式;所有报告的比较在p<0.001p<0.001水平上仍然显著。

## 4 结果

### 4.1 整体对比

表1 (https://arxiv.org/html/2606.31307#S4.T1)显示了在MultiWOZ上的结果。引导重试在所有六个模型上始终优于两个基线。跨模型平均,朴素策略的HR为30.5%,AAR为66.5%;引导重试将HR降低了50%,降至15.3%,并将AAR提升至83.0%。这些改进在我们的配对测试设置下具有统计显著性(p<0.001p<0.001)。

CSR接近上限,因为在当前的自动实现中,它有意比HR更窄。 HR捕获广泛的、无依据的虚构,而CSR仅捕获明确的预订风格虚假承诺;因此,HR计入的许多幻觉并不影响CSR。

DeepSeek-R1在引导重试下实现了最低的HR(5.8%)。Phi-3是个例外:引导重试的表现比告知差(HR 35.2 vs. 31.0),表明该模型无法可靠地遵循结构化恢复指令。

表2 (https://arxiv.org/html/2606.31307#S4.T2)显示了与MultiWOZ相似的模式:引导重试在所有六个模型上实现了最佳的AAR,将6模型平均值从58.7%提升至83.9%,并将平均HR从20.9%降低至12.2%。Phi-3仍然是主要例外,在引导重试下的HR高于告知。

表1:MultiWOZ总体结果。HR = 幻觉率(%),AAR = 恰当行为率(%),CSR = 自动承诺安全率(%),UFS = 用户摩擦分数。每个模型和指标的最佳值以**粗体**显示。表2:SGD总体结果。HR = 幻觉率(%),AAR = 恰当行为率(%),CSR = 自动承诺安全率(%),UFS = 用户摩擦分数。每个模型和指标的最佳值以**粗体**显示。
### 4.2 按故障类型细分

图1 (https://arxiv.org/html/2606.31307#S4.F1)显示了MultiWOZ和SGD上按故障类型划分的幻觉率。错误域检索在两个数据集上都是最难处理的故障情况。在MultiWOZ上,朴素策略HR对于错误域输入达到47.8%,引导重试仍留下20.8%的残余幻觉。在SGD上,同样的模式成立,但绝对数值更低:朴素策略HR对于错误域输入为31.0%,在引导重试下降至17.0%。这表明模型通常采用来自错误域结果的词汇,而不是检测到不匹配。

API错误显示了结构化恢复提示带来的最明显益处。在MultiWOZ上,引导重试将HR从39.7%降至14.2%;在SGD上,它将HR从29.0%降至14.0%。空结果故障也有所改进,但幅度较小:在MultiWOZ上,HR从34.3%降至26.3%;而在SGD上,HR从23.0%降至18.0%。所有策略在两个数据集上都正确处理了干净轮次(HR = 0.0%)。

参见图注

(a) MultiWOZ

参见图注

(b) SGD

图1:按故障类型和恢复策略划分的幻觉率(%)。错误域检索是两个数据集上最难处理的故障情况,而引导重试相对于朴素策略和告知策略持续降低幻觉。
### 4.3 跨数据集泛化能力

表3 (https://arxiv.org/html/2606.31307#S4.T3)显示了六个模型在两个数据集上的平均结果。总体模式在MultiWOZ-2.2和SGD上一致:引导重试分别实现了83.0%和83.9%的AAR,证实了这些发现泛化到了跨5个和20个域的结构性不同的TOD基准。SGD上的总体HR较低,可能是因为SGD对话更加公式化,使得故障状态更容易检测。

表3:跨数据集比较(6模型平均值)。
### 4.4 人工评估

为了验证承诺安全指标,我们对60个采样响应进行了人工评估,这些响应涵盖了所有三种策略和三种非干净故障类型。我们从不同学术水平和背景中招募了九名标注员,以提供多样化的标注池,并将调查限制在60项,以平衡覆盖率和标注质量。每位标注员完成调查大约需要1.5小时;如果调查时间过长,会增加标注员疲劳,可能降低标注精度。标注员对底层策略和故障条件不知情。

标注员在完成调查前收到了明确的说明和示例项目。他们被要求分配一个二元标签(*虚假承诺* vs. *恰当响应*),其中虚假承诺定义为:“*当数据库未返回时,代理明确声称预订、预约、确认或特定数据库支持的结果为真。*”

标注员间一致性很强,Fleiss’κ=0.7672\\kappa=0.7672,观察一致性为95.74%。总体人工CSR为90.0%(6/60多数虚假承诺)。策略排名与自动趋势一致:引导重试实现了100.0%的人工CSR,而告知为89.47%,朴素为80.95%。按故障类型划分,空结果案例的人工CSR为100.0%,错误域案例为85.7%,API错误为85.0%。这些结果支持了自动承诺安全指标的有效性,同时确认引导重试总体上产生了最安全的行为。

## 5 讨论

我们的结果表明,基于LLM的TOD代理即使在数据库明确报告失败时,也可能默认生成自信、流畅的响应,这与LLM代理倾向于流畅性而非准确性的更广泛趋势一致(Baidyaet al\.,2025 (https://arxiv.org/html/2606.31307#bib.bib19))。主要的实际发现是,一个单一的结构化系统提示添加无需重新训练、额外推理调用或大量工程开销,即可将幻觉率降低42–50%。

Phi-3的结果值得注意:它是唯一一个在引导重试下HR表现比告知更差的模型。Phi-3也具有最高的朴素HR(44.5%),表明即使某些模型家族可以从结构化恢复指令中获益,其他一些模型可能无法可靠地受益。

最重要的是,即使在引导重试下,残余幻觉仍然不容忽视。最佳模型(DeepSeek-R1)在5.8%的失败轮次中仍在产生幻觉,而最差情况(Phi-3)达到了35.2%。这表明基于提示的恢复是有帮助的,但单独使用不足以实现稳健的TOD部署。

## 6 结论

我们针对两个基准和六个模型家族,对运行时数据库故障下的基于LLM的TOD代理进行了受控的故障注入研究。引导重试,一种结构化的提示级恢复策略,在不重新训练的情况下将幻觉率降低42–50%,但残余幻觉(6–37%)仍然存在,其中错误域检索是最难处理的故障情况。代码和提示已发布在我们的GitHub上。111https://github.com/mohammad-AJP/llm-db-failure-recovery

## 局限

我们的故障注入是综合构造的,真实世界的后端故障可能遵循不同的分布。自动幻觉检测依赖于启发式模式,人工评估仅覆盖了项目的一个子集。我们评估了7–9B规模下的指令调整模型;更大或专有模型可能表现不同。最后,我们未研究用户对故障确认做出响应后的多轮恢复动态,这留待未来工作。

## 参考文献

- M\. Abdin, J\. Aneja, H\. Awadalla, A\. Awa

相似文章

当证据稀疏时:对话与LLM-Agent轨迹中的弱监督早期故障预警

arXiv cs.CL

本文提出了一种两阶段方法,用于对话和LLM-Agent轨迹中的早期故障预警。该方法通过从轨迹标签中学习逐轮故障证据来解决证据稀疏的挑战,并使用基于注意力的预测器与偏好条件停止策略(α-STOP),以实现可控的准确率-及时性权衡。

长期历史感知的医疗对话合成与评估

arXiv cs.CL

本文介绍了一种利用大语言模型(LLMs)合成长期医疗对话数据集的框架,并创建了 MediLongChat,包含三个基准任务,用于评估医疗智能体的记忆与推理能力。实验表明,即使是最先进的 LLMs 也难以完成这些任务。