DiagFlowBench: 评估语言模型在基于流程的诊断对话中如何处理非程序输入

arXiv cs.AI 2026/06/17 04:00 论文

benchmark diagnostic-dialogue language-models grounding safety industrial-maintenance

摘要

本文介绍了DiagFlowBench，这是一个包含1,676个多轮诊断对话的基准数据集，这些对话源自工业流程图，旨在评估语言模型处理非程序输入及避免给出不恰当建议的能力。

arXiv:2606.17904v1 Announce Type: new 摘要: 语言模型越来越多地作为维护操作中的咨询系统。为了防止幻觉，最近的系统将这些模型基于程序文档进行约束，使其限制在批准的步骤中。然而，在实践中，操作员的查询经常偏离这一路径，要求模型在对话中途识别出范围外的输入，这种动态是当前基准测试很少优先考虑的。我们引入了DiagFlowBench，这是一个包含来自一家消费制造商的50个工业诊断流程图的数据集，转化为1,676个多轮对话，对比了合规与超出范围的表述。评估一组十个商业和开放权重模型揭示了在避免作答率上的高度可变性，模型通常选择一个真实但上下文不恰当的步骤，而不是捏造事实。这种映射但错误的建议的内在合理性和权威性暴露了接地系统的一个具有挑战性的脆弱性。

查看原文

查看缓存全文

缓存时间: 2026/06/17 05:39

## 评估语言模型如何处理接地诊断对话中的程序外输入
来源：https://arxiv.org/html/2606.17904
Guillermo Gil de Avalle¹, Laura Maruster¹, Shaina Raza², Christos Emmanouilidis¹  
¹ 格罗宁根大学，邮政信箱 72，9700 AB 格罗宁根，荷兰  
² 向量人工智能研究所，MaRS 中心，多伦多，安大略省，加拿大  
\{g\.gil\.de\.avalle, l\.maruster, c\.emmanouilidis\}@rug\.nl, shaina\.raza@vectorinstitute\.ai

###### 摘要

语言模型越来越多地被用作维护操作中的咨询系统。为了防止幻觉，近期的工作将这些模型接地到程序文档中，以将其限制在已批准的步骤内。然而，在实际中，操作员的查询经常偏离这条路径，要求模型在对话中途识别出范围外的输入——这是当前基准测试很少优先考虑的动态情况。我们引入了 **DiagFlowBench**，这是一个数据集，包含来自一家消费品制造商的 50 个工业诊断流程图，这些流程图被转化为 1676 轮多轮对话，将合规的表述与程序外的表述进行对比。评估了十个商业和开源权重模型组成的面板，结果显示弃权率存在高度差异，模型通常倾向于选择一个真实但上下文不恰当的步骤，而不是编造事实。这种映射后错误建议的固有合理性和权威性揭示了接地系统的一个脆弱性挑战。

**DiagFlowBench：评估语言模型如何在接地诊断对话中处理程序外输入**

Guillermo Gil de Avalle¹, Laura Maruster¹, Shaina Raza², Christos Emmanouilidis¹  
¹ 格罗宁根大学，邮政信箱 72，9700 AB 格罗宁根，荷兰  
² 向量人工智能研究所，MaRS 中心，多伦多，安大略省，加拿大  
\{g\.gil\.de\.avalle, l\.maruster, c\.emmanouilidis\}@rug\.nl, shaina\.raza@vectorinstitute\.ai

## 1 引言

大型语言模型（LLMs）越来越多地被部署为维护咨询系统 [Kernan Freire et al., 2023](#bib.bib29); [Colabianchi et al., 2024](#bib.bib30)，通过自然语言帮助操作员查阅程序文档，根据提供的观察结果提出下一步行动 [Turner et al., 2019](#bib.bib31); [Deng et al., 2024](#bib.bib32)。工业诊断程序知识通常以流程图或决策树的形式捕获 [Vidyaratne et al., 2024](#bib.bib33)，近期的工作利用这些结构来接地维护系统 [Wang et al., 2024](#bib.bib34); [Emmanouilidis et al., 2019](#bib.bib35)。由于这些流程图枚举了可接受的步骤序列，将 LLM 输出映射到这个封闭集合作为防止幻觉的内置保障，确保了可追溯性和对程序的忠实度 [Poesia et al., 2022](#bib.bib49); [Maynez et al., 2020](#bib.bib1)。

然而，挑战在于操作员很少会以确切的程序术语来请求建议 [Antonovsky et al., 2014](#bib.bib26)。随着对话的展开，操作员可能会报告新的症状，或在检查过程中提出文档步骤未预见到的问题。操作员产生的自然语言输入加剧了这一困难，通常包含密集的文本，带有缩写、简写和领域特定术语，这些术语难以干净地映射到文档上 [Brundage et al., 2021](#bib.bib52); [Dima et al., 2021](#bib.bib53)。经验扩大了这一差距，因为经验丰富的操作员依赖的是对设备的隐性知识，而不是字面上的手册 [Dreyfus, 2004](#bib.bib27)，这使得他们的查询进一步偏离了已映射的步骤。

在实践中，基于 LLM 的咨询系统会在对话中途接收到这些程序外查询，它们混杂在程序内轮次中，并且必须在生成过程中处理两者。这两种情况倾向于被独立评估。基于流程图的基准测试通常在干净、可映射的输入上评估合规性 [Raghu et al., 2021](#bib.bib13); [Zhang et al., 2025](#bib.bib15)，而程序外识别通常作为单轮查询的弃权来评估 [Feng et al., 2024](#bib.bib9); [Larson et al., 2019](#bib.bib5)。实时的诊断对话同时呈现这两种情况，要求模型在合规轮次中推进程序，同时在同一个对话中识别出哪些轮次偏离了程序。

为了弥合这一差距，我们引入了 **DiagFlowBench** 来评估基于流程图的模型在合作和程序外条件下的表现。我们的贡献包括：(1) 一个数据集，包含来自一家消费品制造商的 50 个工业流程图，被转化为 1676 轮多轮对话，将干净的对话与程序外的对应对话配对；(2) 对十个不同商业和开源权重模型的评估；(3) 识别出一种失败模式，我们称之为 **强制映射**，即模型强行将一个程序外查询分配给一个不相关的步骤。由于这些返回的步骤是真实的程序节点，仅基于相似性的接地难以将其标记为失败。最终，我们的发现表明，旨在防止幻觉的约束机制反而可能将上下文错误伪装成有效步骤，将内置的安全特性变成了一个盲点。

## 2 相关工作

任务导向对话（TOD）系统通过多轮次引导用户达到目标，传统上通过固定模式上的槽位和意图跟踪来实现 [Budzianowski et al., 2018](#bib.bib12)。基于流程图的对话专门化这一设置，将模式替换为显式的过程图，这样每次轮次都沿着文档化的故障排除工作流程推进 [Raghu et al., 2021](#bib.bib13); [Zhan et al., 2023](#bib.bib14)。这一方向的基准测试主要衡量模型遵循该工作流程的忠实度。FloDial 通过将故障排除流程图渲染成对话来建立此任务，根据模型选择操作员查询所授权的具体步骤的能力进行评分 [Raghu et al., 2021](#bib.bib13)。后来的语料库放弃实际手册的真实性以换取规模，从 UML 图和合成生成中推导出程序 [Zhang et al., 2025](#bib.bib15); [Zhan et al., 2023](#bib.bib14)。最近，GuideBench 测试当指导方针在任务中途改变时的合规性 [Diao et al., 2025](#bib.bib16)，而 SOP-Bench 要求模型将工业操作程序作为离散的工具调用来执行 [Nandi et al., 2025](#bib.bib20)。尽管存在这些变化，但这一研究方向的每个查询都被假定可以映射到程序中的某个位置，没有考虑落在其范围之外的表述。

这种基本的识别技能被独立研究为弃权。传统的弃权检测将这一挑战框架化为对孤立单个输入的处理 [Larson et al., 2019](#bib.bib5); [Rajpurkar et al., 2018](#bib.bib6)。然而，即使在这些孤立的环境中，LLM 作出弃权决定仍然非常困难，因为它们经常误判自己知识的界限 [Yin et al., 2023](#bib.bib8)，并且倾向于从信息空白中回答而不是拒绝 [Feng et al., 2024](#bib.bib9)。这种倾向在检索范式下持续存在，模型自信地从对查询没有实际支持的段落中综合答案 [Cuconasu et al., 2024](#bib.bib11)，从而破坏了针对幻觉的防护性能 [Shuster et al., 2021](#bib.bib3)。当这一挑战扩展到多轮 TOD 对话时，程序外输入主要被视为干扰。例如，在 MultiWOZ 槽位填充对话中注入非正式对话会严重降级状态跟踪和任务成功率 [Budzianowski et al., 2018](#bib.bib12); [Stricker and Paroubek, 2024](#bib.bib17)。类似地，CGoDial 插入需系统检测并回复固定默认响应的超出范围轮次 [Dai et al., 2022](#bib.bib18)，FlowAgent 对工作流程代理在请求偏离时保持合规性进行评分 [Shi et al., 2025](#bib.bib19)。在所有这些设置中，程序外轮次被纯粹视为一个需搁置或忽略的二分类任务。要解析一个接地模型在不弃权时返回了什么，而不仅仅是它是否弃权，需要针对具体的程序位置评估每个响应。如果没有程序和位置，一个真实但不相关的步骤与正确的步骤是无法区分的。

| 基准测试 | 图结构程序 (Graph) | 观察驱动轮次 (Obs.) | 真实文档 (Docs) | 多轮对话 (Multi) | 评估中程序外输入 (Off) |
|----------|-------------------|---------------------|-----------------|-----------------|------------------------|
| FloDial | ✓ | ✗ | ✓ | ✓ | ✗ |
| CGoDial | ✗ | ✗ | ✗ | ✓ | ✓ |
| 程序外检测 | ✗ | ✗ | ✗ | ✗ | ✓ |
| **DiagFlowBench** | ✓ | ✓ | ✓ | ✓ | ✓ |

表1：程序性和基于流程图的基准测试与程序外评估所需的五个属性对比，这些属性在文本中定义：图结构程序 (Graph)、观察驱动轮次 (Obs.)、真实文档 (Docs)、多轮对话 (Multi)、以及评估中的程序外输入 (Off)。

对接地顾问的程序外报告正好处于这两条研究线的交汇点。为了准确解读模型如何处理此类查询，我们指定了五个评估条件。程序必须作为**图** (Graph) 运行，这样输入才有可能落在结构边之外。轮次必须是**观察驱动** (Obs.) 的，以强制对直接阅读进行推理。文档最好应该是**真实的** (Docs)，或至少源自真实文档，以忠实地代表实际部署的复杂性。对话必须是**多轮** (Multi) 的，以确保主动位置跟踪的难度。最后，必须明确包含**程序外** (Off) 输入，以创建没有可映射响应的轮次。表1 (Table 1) 根据这五个标准以及 **DiagFlowBench** 评估了上述基准测试。

## 3 任务公式化

我们将一个程序建模为一个有向图 \(G=(V,E)\)，其中节点是诊断状态，边是可接受的转换。每条边 \(e=(v \rightarrow v')\) 带有观察标签 \(\ell(e)\)，该标签授权移动到 \(v'\)，因此在节点 \(v\) 处可接受的输入是其出边上的标签集合：\(L(v)=\{\ell(e): e=(v \rightarrow \cdot)\}\)。某些节点是终端节点，即它们标志着程序的结束。

对话按顺序访问节点。在当前节点 \(v_t\)，操作员产生一个表述 \(o_t\)，模型在给定历史 \(h_t\) 的情况下，必须命名下一个操作 \(\hat{a}_t\)。当表述蕴含 \(v_t\) 某条出边上的标签时，该表述是**程序内**的，即存在某条边 \(e=(v_t \rightarrow \cdot)\) 使得 \(o_t \models \ell(e)\)；该边的目标节点即为正确的下一个操作。当表述不蕴含任何 \(v_t\) 出边上的标签时，它是**程序外**的，即对于所有 \(e=(v_t \rightarrow \cdot)\)，\(o_t \not\models \ell(e)\)；在这种情况下，\(G\) 中没有节点是正确的答案。将其视为无有效响应，而不是缺失响应，是对该程序的封闭世界解读 [Reiter, 1978](#bib.bib4)。操作员的轮次遵循固定的参考路径，而不是对 \(\hat{a}_t\) 做出反应，因此每个模型看到相同的对话，程序内和程序外轮次可以独立评分 [Raghu et al., 2021](#bib.bib13)。附录 F (Appendix F) 收集了符号的解释。

#### 程序内能力。

在程序内轮次中，模型必须从 \(h_t\) 定位 \(v_t\)，选择由 \(o_t\) 蕴含的后继节点，并最终到达终端节点。这些定义了评估协议中每次轮次衡量的两个能力。**步骤准确率 (Step Accuracy, SA)** 指命名的 \(\hat{a}_t\) 是否是由 \(o_t\) 蕴含的后继节点。**终止识别 (Termination Recognition, TR)** 指模型是否在终端节点停止，而不是提出进一步操作。因此，程序内行为是解读程序外行为的基线。

#### 程序外失败模式。

在程序外轮次中，\(v_t\) 的任何出边都不被蕴含。模型应认识到 \(L(v_t)\) 中没有标签被 \(o_t\) 蕴含，并拒绝接地到一个操作，通过重定向、上报或寻求澄清。这种响应被定义为**正确弃权 (Correct Abstention, CA)**。所有其他响应属于两类失败之一。在**编造 (Fabrication, FA)** 中，模型返回 \(\hat{a}_t \notin V\)，即一个程序中没有的步骤。在**强制映射 (Forced Mapping, FM)** 中，模型返回一个真实节点 \(\hat{a}_t \in V\)，但没有通向 \(\hat{a}_t\) 的边被 \(o_t\) 蕴含。该步骤存在于程序中，但操作员的表述没有给出选择它的理由。

FM 不属于常见的幻觉分类 [Maynez et al., 2020](#bib.bib1); [Ji et al., 2023](#bib.bib2)。虽然 FA 是一种标准的外在幻觉，但 FM 选择是一个真实的、图一致的步骤被应用于错误的上下文。这种一致性使得 FM 特别难以检测。标准的接地检查确认该节点在结构上是有效的，但未能验证其上下文相关性。

## 4 **DiagFlowBench** 基准测试

**DiagFlowBench** 包含 50 个匿名的工业诊断流程图，这些流程图被转化为 1676 轮多轮对话，一半是合作的，另一半带有程序外注入。这些对话成对构建，两者之间的唯一区别在于操作员是否偏离程序，如图1 (Figure 1) 所示。

### 4.1 程序

这些程序来自一家消费品制造商的维护文档，包括故障排除和操作员控制流程图，涵盖了故障类别，例如传送带跟踪、视觉检测校准、机器人放置和 CNC 主轴验收。我们通过移除公司标识符和抽象领域来匿名化这些程序，严格保留了原始的诊断逻辑和图拓扑结构。这些图包含 7 到 60 个节点，平均 31 个，决策分支因子在 2 到 4 之间。附录 A (Appendix A) 报告了全面的统计数据。

### 4.2 对话

对于每个图，我们在贪婪集合覆盖下枚举从根到终端的路径，该覆盖覆盖每个决策分支，并对每个图的路径数量设置上限，以避免对大型图过度采样。附录 A (Appendix A) 提供了路径选择过程。通过向模型提示当前节点和目标边标签，每条路径被渲染成一个操作员脚本；之后，一个验证步骤修复任何泄露下游步骤或违反边语义的表述，并由人类标注员审查输出。一个噪声扰动过程产生第二个变体，该变体保持了过程拓扑和路径结构。

DiagFlowBench: 评估语言模型在基于流程的诊断对话中如何处理非程序输入

相似文章

LingxiDiagBench：一个用于中文精神科咨询与诊断中LLM评估的多智能体基准框架

心理健康对话中的专家级危机检测

Conv-to-Bench: 通过用户-助手对话评估语言模型在代码任务中的表现

Dialogue SWE-Bench：对话驱动编码代理的基准测试

DisaBench: 一个用于语言模型中残疾伤害的参与式评估框架

提交意见反馈