当数据库失败时：在任务导向对话中提示LLM对话代理进行安全恢复

arXiv cs.CL 2026/07/01 04:00 论文

llm task-oriented-dialogue database-failure prompting hallucination-mitigation safety robustness

摘要

本文研究了一种轻量级的基于提示的恢复方法，用于后端数据库调用失败时的LLM对话代理，表明Guided-Retry策略在六个模型家族上，将MultiWOZ的幻觉降低了50%，SGD降低了42%。

arXiv:2606.31307v1 公告类型：新摘要：任务导向对话中使用的大语言模型在后端数据库调用失败、返回空结果或表面信息不匹配时，常常会生成流畅但不安全的响应，凭空捏造场所、确认信息或未基于数据库的预订详情。我们研究了一种轻量级的基于提示的恢复方法，无需重新训练或额外模型调用即可提高鲁棒性。我们比较了三种响应策略，其中包括一种基于结构化数据库状态的条件化引导恢复提示，覆盖六个开放权重模型家族（DeepSeek-R1、Gemma-2、Llama-3、Mistral、Phi-3和Qwen-2.5）以及四种数据库状态：空结果、错误领域检索、API错误和干净检索。使用基于两个结构不同数据集（MultiWOZ 2.2（5个领域）和SGD（20个领域））构建的故障注入基准，我们发现简单代理在MultiWOZ上30.5%的失败回合以及SGD上20.9%的失败回合中产生幻觉。我们的Guided-Retry策略在不重新训练的情况下，将MultiWOZ上的幻觉降低了50%（从30.5%降至15.3%），将SGD上的幻觉降低了42%（从20.9%降至12.2%）。然而，残余幻觉仍然显著（各模型在6%-37%之间），其中错误领域检索是最难的情况。结果在两个数据集和全部六个模型家族中保持一致，人工标注显示出高度一致性，同时支持自动承诺安全性指标的有效性。

查看原文

查看缓存全文

缓存时间: 2026/07/01 05:33

# 在任务导向对话中提示LLM对话代理实现安全恢复
来源：https://arxiv.org/html/2606.31307
Mohammad Alijanpour Shalmani1,\*,Alale Rezvani Boroujeni2,Jiann Shiun Yuan1

1中佛罗里达大学工程与计算机科学学院，佛罗里达州奥兰多 2中佛罗里达大学市场营销系，佛罗里达州奥兰多 通讯邮箱：alijanpour@ucf\.edu (https://arxiv.org/html/2606.31307v1/mailto:email@domain)

###### 摘要

用于任务导向对话的大型语言模型在后端数据库调用失败、返回空结果或呈现不匹配信息时，往往会产生流畅但不安全的响应，甚至凭空捏造出数据库中不存在的场所、确认信息或预订详情。我们研究了一种轻量级基于提示的恢复方法，该方法无需重新训练或额外模型调用即可提升鲁棒性。我们比较了三种响应策略，包括一种基于结构化数据库状态进行条件化引导的恢复提示， 覆盖了六个开源模型系列（DeepSeek-R1、Gemma-2、Llama-3、Mistral、Phi-3 和 Qwen-2.5）以及四种数据库条件：空结果、错误域检索、API错误和正确检索。使用基于两个结构不同的数据集（MultiWOZ 2.2（5个域）和SGD（20个域））构建的故障注入基准，我们发现，朴素代理在MultiWOZ上30.5%的失败轮次中产生幻觉，在SGD上则为20.9%。我们的引导重试策略在不重新训练的情况下，将MultiWOZ上的幻觉率降低了50%（30.5→→15.3%），将SGD上的幻觉率降低了42%（20.9→→12.2%）。然而，残余幻觉仍然显著（各模型间为6–37%），其中错误域失败是最难处理的情况。结果在两个数据集和所有六个模型系列上保持一致，人工标注显示出高度一致性，同时支持自动承诺安全性指标的有效性。

当数据库失败时：提示LLM对话代理在任务导向对话中实现安全恢复

Mohammad Alijanpour Shalmani1,\*, Alale Rezvani Boroujeni2, Jiann Shiun Yuan1
1中佛罗里达大学工程与计算机科学学院，佛罗里达州奥兰多
2中佛罗里达大学市场营销系，佛罗里达州奥兰多
通讯邮箱：alijanpour@ucf\.edu (https://arxiv.org/html/2606.31307v1/mailto:email@domain)

## 1 引言

任务导向对话系统帮助用户预订酒店、查找餐厅和安排交通。现代基于LLM的代理(Hudeček and Dušek,2023 (https://arxiv.org/html/2606.31307#bib.bib1))通常遵循标准流程：提取用户意图，查询后端数据库，并生成基于结果的响应。该流程在数据库边界处非常脆弱。实际应用中，后端故障仍可能导致模型产生流畅但无依据的响应，包括虚构的场所、确认信息或预订详情。实际部署时常遇到三种故障模式：(1) 空结果——没有记录匹配用户约束；(2) 错误域返回——数据库路由到了不正确的域(Ericet al\.,2020 (https://arxiv.org/html/2606.31307#bib.bib2))；(3) API错误——超时和服务器故障。

## 2 相关工作

先前的研究更广泛地探讨了LLM代理中的工具故障。TRACE/SCOPE(Houet al\.,2025 (https://arxiv.org/html/2606.31307#bib.bib11))识别了当工具返回空结果或超时时的“幻觉回退”。ReliabilityBench(Gupta,2026 (https://arxiv.org/html/2606.31307#bib.bib12))向通用代理任务中注入故障，但未涉及TOD。PALADIN(Vuddantiet al\.,2025 (https://arxiv.org/html/2606.31307#bib.bib13))针对注入的工具故障训练恢复策略。非协作模拟器(Shimet al\.,2025 (https://arxiv.org/html/2606.31307#bib.bib15))在MultiWOZ中对代理进行压力测试，侧重于超出范围的*用户请求*，而非后端执行故障。

据我们所知，先前的工作并未提供一个基于MultiWOZ和SGD的评估：该评估 (i) 注入运行时数据库执行故障而非用户行为压力；(ii) 比较仅通过提示的恢复而不进行重新训练；(iii) 量化在结构化指导下的残余幻觉。

我们做出四项贡献：(1) 在MultiWOZ 2.2和SGD上建立了一个受控的故障注入框架；(2) 评估了六种模型上的三种提示策略；(3) 建立了一套自动化和人工验证的故障恢复指标，包括承诺安全率；(4) 发现结构化提示可以减少但无法消除幻觉，各模型的残余率在6–37%之间。

## 3 方法

### 3.1 数据集与故障注入

我们使用MultiWOZ 2.2(Zanget al\.,2020 (https://arxiv.org/html/2606.31307#bib.bib3))（5个域：酒店、餐厅、出租车、火车、景点）和SGD(Rastogiet al\.,2020 (https://arxiv.org/html/2606.31307#bib.bib4))（20个域，涵盖餐厅、航班、酒店、活动、媒体等）的测试集。对于每个测试对话，我们提取第一个用户轮次，并综合性地注入四种*数据库执行条件之一*，每种条件采样100个对话（每个数据集共400个）。我们使用第一个用户轮次作为一个受控诊断设置，该设置隔离了后端故障下的即时恢复行为，避免了更长对话上下文或多轮状态跟踪带来的额外混淆。

- •干净：数据库返回有效结果。作为健全性基线。
- •空结果：数据库返回零匹配。正确操作：承认失败并提供约束放宽。
- •错误域：数据库返回来自错误域的结果。正确操作：检测到不匹配并与用户确认。
- •API错误：数据库返回超时或503错误。正确操作：道歉并请用户重试。

### 3.2 恢复策略

对于每个模型，所有策略使用相同的解码设置（温度0.2），仅在系统提示上有所不同。

- •朴素：原始数据库响应，无特殊指令。
- •告知：明确指示模型不要产生幻觉，并诚实地承认失败。
- •引导重试：模型接收一个基于DB状态字段的结构化决策过程，包含针对每种故障的明确指示，以及明确禁止捏造场所名称、预订编号或确认详情。

我们评估了来自六个组织的六个开源模型系列：DeepSeek-R1(Guoet al\.,2025 (https://arxiv.org/html/2606.31307#bib.bib5))、Gemma-2(Gemma Team, Google DeepMind,2024 (https://arxiv.org/html/2606.31307#bib.bib6))、Llama-3(Meta Llama Team,2024 (https://arxiv.org/html/2606.31307#bib.bib7))、Mistral(Jianget al\.,2023 (https://arxiv.org/html/2606.31307#bib.bib8))、Phi-3(Abdinet al\.,2024 (https://arxiv.org/html/2606.31307#bib.bib9))和Qwen-2.5(Qwen Team,2024 (https://arxiv.org/html/2606.31307#bib.bib10))。

### 3.3 指标

我们使用四个互补指标来评估恢复质量，这些指标涵盖了幻觉、行为恰当性、承诺安全性和用户摩擦。HR（幻觉率）：非干净轮次中代理虚构数据库响应中不存在的结果的比例，通过正则表达式模式检测。AAR（恰当行为率）：匹配每种故障类型地面真实正确行为的比例，通过关键词启发式评估。CSR（承诺安全率）：非干净轮次中不包含明确虚假承诺（例如，虚构的预订编号、确认信息或其他预订风格的承诺用语）的比例。

在当前的自动实现中，CSR比HR更窄：它仅检测明确的预订风格虚假承诺，因此响应可能增加HR而不减少CSR。CSR由九名人工标注员对60个采样响应进行评分验证；标注员间一致性κ=0.7672\\kappa=0.7672。

UFS（用户摩擦分数）：综合评分0–3（越低越好）：+2表示幻觉，+1表示静默失败。统计显著性使用配对测试在匹配的故障注入对话实例上进行评估（α=0.05\\alpha=0.05）。

#### 统计检验。

对于每个模型独立地，我们将引导重试与朴素策略在匹配的故障注入对话实例上进行对比，即相同的测试轮次在相同的故障条件下使用两种策略进行评估。对于二元指标HR和AAR，我们使用McNemar精确检验。对于UFS，我们使用双尾配对t检验。我们在所有六个模型上观察到相同的显著性模式；所有报告的比较在p<0.001p<0.001水平上仍然显著。

## 4 结果

### 4.1 整体对比

表1 (https://arxiv.org/html/2606.31307#S4.T1)显示了在MultiWOZ上的结果。引导重试在所有六个模型上始终优于两个基线。跨模型平均，朴素策略的HR为30.5%，AAR为66.5%；引导重试将HR降低了50%，降至15.3%，并将AAR提升至83.0%。这些改进在我们的配对测试设置下具有统计显著性（p<0.001p<0.001）。

CSR接近上限，因为在当前的自动实现中，它有意比HR更窄。 HR捕获广泛的、无依据的虚构，而CSR仅捕获明确的预订风格虚假承诺；因此，HR计入的许多幻觉并不影响CSR。

DeepSeek-R1在引导重试下实现了最低的HR（5.8%）。Phi-3是个例外：引导重试的表现比告知差（HR 35.2 vs. 31.0），表明该模型无法可靠地遵循结构化恢复指令。

表2 (https://arxiv.org/html/2606.31307#S4.T2)显示了与MultiWOZ相似的模式：引导重试在所有六个模型上实现了最佳的AAR，将6模型平均值从58.7%提升至83.9%，并将平均HR从20.9%降低至12.2%。Phi-3仍然是主要例外，在引导重试下的HR高于告知。

表1：MultiWOZ总体结果。HR = 幻觉率（%），AAR = 恰当行为率（%），CSR = 自动承诺安全率（%），UFS = 用户摩擦分数。每个模型和指标的最佳值以**粗体**显示。表2：SGD总体结果。HR = 幻觉率（%），AAR = 恰当行为率（%），CSR = 自动承诺安全率（%），UFS = 用户摩擦分数。每个模型和指标的最佳值以**粗体**显示。
### 4.2 按故障类型细分

图1 (https://arxiv.org/html/2606.31307#S4.F1)显示了MultiWOZ和SGD上按故障类型划分的幻觉率。错误域检索在两个数据集上都是最难处理的故障情况。在MultiWOZ上，朴素策略HR对于错误域输入达到47.8%，引导重试仍留下20.8%的残余幻觉。在SGD上，同样的模式成立，但绝对数值更低：朴素策略HR对于错误域输入为31.0%，在引导重试下降至17.0%。这表明模型通常采用来自错误域结果的词汇，而不是检测到不匹配。

API错误显示了结构化恢复提示带来的最明显益处。在MultiWOZ上，引导重试将HR从39.7%降至14.2%；在SGD上，它将HR从29.0%降至14.0%。空结果故障也有所改进，但幅度较小：在MultiWOZ上，HR从34.3%降至26.3%；而在SGD上，HR从23.0%降至18.0%。所有策略在两个数据集上都正确处理了干净轮次（HR = 0.0%）。

参见图注

(a) MultiWOZ

参见图注

(b) SGD

图1：按故障类型和恢复策略划分的幻觉率（%）。错误域检索是两个数据集上最难处理的故障情况，而引导重试相对于朴素策略和告知策略持续降低幻觉。
### 4.3 跨数据集泛化能力

表3 (https://arxiv.org/html/2606.31307#S4.T3)显示了六个模型在两个数据集上的平均结果。总体模式在MultiWOZ-2.2和SGD上一致：引导重试分别实现了83.0%和83.9%的AAR，证实了这些发现泛化到了跨5个和20个域的结构性不同的TOD基准。SGD上的总体HR较低，可能是因为SGD对话更加公式化，使得故障状态更容易检测。

表3：跨数据集比较（6模型平均值）。
### 4.4 人工评估

为了验证承诺安全指标，我们对60个采样响应进行了人工评估，这些响应涵盖了所有三种策略和三种非干净故障类型。我们从不同学术水平和背景中招募了九名标注员，以提供多样化的标注池，并将调查限制在60项，以平衡覆盖率和标注质量。每位标注员完成调查大约需要1.5小时；如果调查时间过长，会增加标注员疲劳，可能降低标注精度。标注员对底层策略和故障条件不知情。

标注员在完成调查前收到了明确的说明和示例项目。他们被要求分配一个二元标签（*虚假承诺* vs. *恰当响应*），其中虚假承诺定义为：“*当数据库未返回时，代理明确声称预订、预约、确认或特定数据库支持的结果为真。*”

标注员间一致性很强，Fleiss’κ=0.7672\\kappa=0.7672，观察一致性为95.74%。总体人工CSR为90.0%（6/60多数虚假承诺）。策略排名与自动趋势一致：引导重试实现了100.0%的人工CSR，而告知为89.47%，朴素为80.95%。按故障类型划分，空结果案例的人工CSR为100.0%，错误域案例为85.7%，API错误为85.0%。这些结果支持了自动承诺安全指标的有效性，同时确认引导重试总体上产生了最安全的行为。

## 5 讨论

我们的结果表明，基于LLM的TOD代理即使在数据库明确报告失败时，也可能默认生成自信、流畅的响应，这与LLM代理倾向于流畅性而非准确性的更广泛趋势一致(Baidyaet al\.,2025 (https://arxiv.org/html/2606.31307#bib.bib19))。主要的实际发现是，一个单一的结构化系统提示添加无需重新训练、额外推理调用或大量工程开销，即可将幻觉率降低42–50%。

Phi-3的结果值得注意：它是唯一一个在引导重试下HR表现比告知更差的模型。Phi-3也具有最高的朴素HR（44.5%），表明即使某些模型家族可以从结构化恢复指令中获益，其他一些模型可能无法可靠地受益。

最重要的是，即使在引导重试下，残余幻觉仍然不容忽视。最佳模型（DeepSeek-R1）在5.8%的失败轮次中仍在产生幻觉，而最差情况（Phi-3）达到了35.2%。这表明基于提示的恢复是有帮助的，但单独使用不足以实现稳健的TOD部署。

## 6 结论

我们针对两个基准和六个模型家族，对运行时数据库故障下的基于LLM的TOD代理进行了受控的故障注入研究。引导重试，一种结构化的提示级恢复策略，在不重新训练的情况下将幻觉率降低42–50%，但残余幻觉（6–37%）仍然存在，其中错误域检索是最难处理的故障情况。代码和提示已发布在我们的GitHub上。111https://github.com/mohammad-AJP/llm-db-failure-recovery

## 局限

我们的故障注入是综合构造的，真实世界的后端故障可能遵循不同的分布。自动幻觉检测依赖于启发式模式，人工评估仅覆盖了项目的一个子集。我们评估了7–9B规模下的指令调整模型；更大或专有模型可能表现不同。最后，我们未研究用户对故障确认做出响应后的多轮恢复动态，这留待未来工作。

## 参考文献

- M\. Abdin, J\. Aneja, H\. Awadalla, A\. Awa

当数据库失败时：在任务导向对话中提示LLM对话代理进行安全恢复

相似文章

当工具失灵：LLM智能体动态重新规划与异常恢复的基准测试

当证据稀疏时：对话与LLM-Agent轨迹中的弱监督早期故障预警

长期历史感知的医疗对话合成与评估

你们是如何处理AI代理在生产中中途任务失败的？以及这种情况对你们来说有多频繁？

超越监督式澄清：利用LLM重写输入以辅助对话篇章解析

提交意见反馈