基于依据的延续:一种用于LLM对话的线性时间运行时验证器

arXiv cs.AI 论文

摘要

本文介绍了基于依据的延续(Grounded Continuation),一种用于LLM对话的线性时间运行时验证器,它维护一个显式依赖图,以检测下一句话是否得到先前对话的支持,在包括LongMemEval和LoCoMo的基准测试中,相比基线取得了准确率提升。

arXiv:2605.14175v1 公告类型:新 摘要:在长对话中,LLM可能会生成听起来合理但实际上基于已被对话放弃的前提的下一句话。当前,针对部署代理的上下文操纵攻击正在积极利用这一漏洞。我们通过一个运行时验证器来弥补这一缺陷,该验证器维护一个显式依赖图:LLM将每一轮对话分类为来自四种形式体系(动态认知逻辑、溯因推理、觉察逻辑、论证)的八种更新操作之一,符号引擎记录哪些主张依赖哪些证据。检查延续是否得到支持简化为图遍历;撤销通过同一张图传播,以精确标记失去支持的那些结论,每次对话轮次成本为线性时间,并提供形式化的无冲突保证。在LongMemEval-KU oracle (n=78)上,验证器达到89.7%的准确率,而仅使用LLM的基线为88.5%(+1.3个百分点),基于记录-RAG的基线的检索预算匹配为87.2%(+2.6个百分点);在分歧中的胜出是基于正确弃权,而基线产生幻觉。在LoCoMo的60个官方QA项目上,验证器与检索增强基线相当。在外部基准测试之外,我们构建了两个多智能体场景和一个50项基础测试:在15项过时前提子集上,验证器达到100%的准确率,而基线为93.3%(+6.7个百分点)。这实例化了可靠性-忠实性分解:结构检查通过构造保证可靠性,而每次部署的LLM提取忠实性是我们跨四个LLM家族测量的经验问题。撤销检查在微秒级趋于稳定,而历史重放随对话长度线性增长。
查看原文
查看缓存全文

缓存时间: 2026/05/15 06:22

# Grounded Continuation: 一种用于LLM对话的线性时间运行时验证器
来源: https://arxiv.org/html/2605.14175
Qisong He, Yi Dong, Xiaowei Huang
英国利物浦大学计算机科学与信息学院

###### 摘要

在长对话中,LLM 可能产生听起来合理但其前提已被对话抛弃的下一轮话语。针对已部署智能体的上下文操纵攻击如今正积极利用这一漏洞。我们用一个维护显式依赖图的运行时验证器来弥补这个漏洞。随着对话的展开,LLM 将每一轮对话分类为来自四个形式体系(动态认知逻辑、溯因推理、意识逻辑、论证)的 8 种更新操作之一。然后,一个符号引擎记录哪些声明依赖于哪些证据和先前的推理。在任何时候,“这个延续是否得到已说内容支持?”都可以简化为一次图遍历。收回操作通过同一个图传播,以精确标记那些失去支持的结论,具有每轮线性时间和正式的无冲突保证。在我们评估的基准测试中,验证器匹配或超过了强基线:在 LongMemEval-KU oracle(知识更新与取代,n=78)上,它达到了 89.7% 的准确率,而纯 LLM 基线为 88.5%(+1.3 个百分点),以及在检索预算和内容访问上匹配的 transcript-RAG 基线为 87.2%(+2.6 个百分点)。验证器在分歧中的胜出是基线虚构时的正确弃权。在 LoCoMo 的 60 个官方 QA 项目上,验证器与检索增强基线具有竞争力,这与其面向交互式基础的关注点一致。在外部基准测试之外,我们构建了两个多智能体场景和一个包含 50 个项目的可控证据基础测试:在 15 个项目的*过时前提*子集(前提在对话早期被收回)上,验证器达到了 100% 的准确率,而基线为 93.3%(+6.7 个百分点)。这些受控测试共同实例化了声音性与忠实性的分解:结构检查是天生可靠的,而每部署 LLM 提取的忠实性是我们跨四个 LLM 家族测量的经验性问题。在受限场景下,图遍历的收回检查在微秒级趋于稳定,而历史重放则随对话长度线性增长。

## 1 引言

大型语言模型产生的连续话语可能在局部流畅且语用合理,但却是*无基础的*:与对话已实际建立的声明、观察和修正相脱节。部署中的问题很具体:给定下一个 LLM 输出,我们能否*在此轮*并在严格的延迟预算内检查该输出是否追溯到那些先前的承诺?当 LLM 无法回答“我们为什么拒绝了方法 A?”或“我们当前的决定基于哪些假设?”时,相关的话语就在上下文窗口内。所缺少的是一个维护的结构,它将 LLM 的延续与对话的先前承诺连接起来。

这个问题在经验上很严重。Laban 等人(2026 年)发现在超过 200,000 次模拟对话中,多轮情景相比单轮情景平均性能下降 39%,LLM 即使在后来的轮次与之矛盾时也无法修正错误的假设:“当 LLM 在对话中走错路时,它们会迷失方向且无法恢复。”Shaikh 等人(2025 年)在来自 WildChat(Zhao 等,2024)、MultiWOZ(Budzianowski 等,2018)和 Bing Chat(Kelly 等,2023)的真实人机对话上显示,LLM 发起澄清的频率比人类合作伙伴低三倍,且早期的基础失败预示着后来的交互崩溃。

这一漏洞还被积极利用:针对已部署智能体的上下文操纵攻击(Patlan 等,2025;Dong 等,2025)产生局部一致但与对话先前承诺脱节的连续话语,触发未经授权的操作,因为没有运行时机制将智能体的延续与对话早期建立的声明联系起来。

检索增强的归因方法解决的是*外部*基础:如果生成的声明可以追溯到引用的文档,则被接受(Gao 等,2023;Bohnet 等,2022)。而长程 LLM 对话主要由*交互式*基础主导(如果延续与同一对话中早期的声明、观察、假设和修正一致,则是可接受的),并且对话记忆系统(Chhikara 等,2025;Rasmussen 等,2025;Zhang 等,2024)跟踪*说了什么*,但不连接所说内容与所得出结论之间的依赖结构。

我们用运行时验证器来弥补这个依赖跟踪的差距:一个 LLM 解释器将每个话语分类为 8 种操作之一,更新一个维护依赖图的符号引擎。在任何时候的运行检查询问候选延续是否可以从当前结构到达,以及它依赖于哪些上游承诺,计算时间与引擎表示大小成线性关系(命题 2.2)。LLM 处理自然语言理解(有噪声但可学习)。引擎处理依赖跟踪(天生可靠,命题 2.1)。

#### 贡献。
(1) 一种用于交互式基础的运行时验证器:在每一轮,以引擎表示大小的线性时间,验证器检查候选延续是否通过维护的依赖结构追溯到对话的先前承诺(第 2 节和第 4 节)。
(2) 在交互式基础重要处取得经验性胜利,并划定其不适用之处:对照匹配的 transcript-RAG 基线,在 LongMemEval-KU oracle (n=78) 上,验证器超过了纯 LLM 基线(+1.3 个百分点)和 transcript-RAG 基线(+2.6 个百分点,表 5),胜利集中在基线虚构而验证器正确弃权的情况。在 LoCoMo 上,它与检索增强基线具有竞争力,这与其面向交互式基础的关注点一致(表 4)。
(3) 一种可组合的形式化基础,带有可靠性保证:每个话语通过 Apply(op, args, D_t) 产生一个单一的类型良好的更新,作用于认识可能性模型、论证框架、承诺记录和依赖图(算法 1),并对选择性收回提供无冲突保证(命题 2.1)。
(4) 一种声音性与忠实性分解,将验证器分解为可靠的结构检查与每部署 LLM 提取的忠实性,暴露了规范的过时声明案例,其中验证器捕捉到纯 LLM 基线和匹配 transcript-RAG 基线都遗漏的建议(在过时前提子集上 +6.7 个百分点,表 3)。

#### 范围。
我们在两个自创的多智能体场景(第 3 节)、一个包含 50 个项目的 Phase 2 直接基础测试、78 个 LongMemEval-KU oracle 项目(Wu 等,2025)以及来自三个多会话对话(Maharana 等,2024)的 60 个官方 LoCoMo QA 项目上进行了评估。验证器是为交互式基础设计的。通过包含内容的呈现和检索,该框架也扩展到实体关系事实性 QA(第 4.2 节)。

## 2 运行时验证器

#### 符号。
我们使用动态认知逻辑(DEL)的标准模态算子:K_i φ(智能体 i 知道 φ),B_i φ(相信),A_i φ(意识到),以及 C_G φ(组 G 中的共同知识)。它们在认知可能性模型(定义 E.1)和意识结构(定义 E.3)上的语义在附录 E 中回顾。验证器本身暴露一个单一的图查询,但支撑它的结构是多层的:一个认知模型(知道什么),一个论证框架(什么攻击什么),承诺记录(谁公开说了什么),以及依赖图本身。定义 2.1 将四个对象捆绑成一个。运行时查询仅触及论证骨架和依赖图。

###### 定义 2.1(依赖结构)。
一个在第 t 轮的*依赖结构*是一个元组 D_t = (M_t, AF_t, Cm_t, Dep_t),其中:
- M_t 是一个认知可能性模型(定义 E.1,Baltag and Smets 2008),记录每个智能体知道、相信或假设的内容。
- AF_t = (Args_t, Att_t) 是一个 Dung 风格的论证框架,带有攻击关系 Att_t ⊆ Args_t × Args_t(Dung, 1995)(每个参数 α 携带一个声明 claim(α) ∈ Prop,涉及对话的命题集 Prop,并且本身是支持的单位)。
- Cm_t: Ags → P(Args_t) 记录每个智能体的公开承诺(Walton et al., 2008),其中 Ags 是对话中的智能体集合。
- Dep_t: Args_t → P(Prop) 将每个参数映射到支持它的命题。

支撑 D_t 的完整四形式体系基础在附录 E 中;下面的运行时检查只查询 Dep_t 和论证骨架。

#### 运行时检查。
给定一个断言命题 φ_c 的候选延续 c,验证器检查 c 是否具有相对于当前依赖结构的*有基础的*属性:

###### 定义 2.2(有基础的延续)。
一个断言命题 φ_c 的候选延续 c 相对于 D_t 是*有基础的*当且仅当存在一个参数 α_c ∈ Args_t 使得 claim(α_c) = φ_c,否则是*无基础的*。

在任何第 t 轮,验证器返回:
Verify(c, D_t) = 
  ⟨grounded, Dep(α_c)⟩  如果 ∃ α_c ∈ Args_t 且 claim(α_c) = φ_c
  ⟨ungrounded, ∅⟩       否则。

一个有基础的延续附带它所依赖的上游承诺集合。一个无基础的延续被标记为重试、收回或人工审查。

两个派生查询支持信念修正:
- Affected(p) 标识当 p 被收回时失去基础的结论(正式定义见命题 2.1,限于当前偏好扩展),以及
- Dep(α) 返回参数 α 所依赖的命题。
两者都简化为依赖图的可达性。

对 (Args_t, Dep_t) 是一个从交互历史派生的标记声明-依赖结构。它的可靠性由命题 2.1 确立,而它的提取时忠实性是由第 4 节解决的经验性问题。定义 2.2 是二值性的,这是设计使然。分级变体(部分依赖、加权攻击关系、置信度校准的基础)是可处理的扩展。

#### 为什么这是非平凡的。
定义 2.2 的查找形式具有误导性。Args_t 不是被提及的命题集合:它是一个论证框架的偏好扩展,该框架的攻击关系在每轮被更新,并由通过溯因(定义 E.2)在对话扩展的意识结构上生成的假设填充。工作发生在检查之前。
- *维护*:每一轮同时更新认知可能性模型、意识集、攻击关系和依赖图。一个误分类会污染所有四个。
- *收回*:识别当 p 被收回时哪些结论失去基础,要求显式的 Dep 映射作为结构的一部分维护,而非事后推导。这正是命题 2.1 的无冲突保证所依赖的。
- *复杂性*:组合的形式体系通常是 PSpace-难的(DEL 模型检验,Aucher and Schwarzentruber 2013),因此任何多项式时间过程(包括 transformer 的前向传递)必须近似。验证器通过增量维护 (Args_t, Dep_t) 来规避这一点,使得每次检查在我们的场景满足的结构限制下是 O(|Args_t| + |Att_t|)(命题 2.2)。

#### 更新 D_t。
一个 LLM 解释器将每个话语分类为 8 种操作之一。算法 1 将操作组合成单个更新 D_t ↦ D_{t+1},同时细化 M、AF、Cm 和 Dep。引擎检查每个操作的前提条件(表 8),并在失败时重新提示。令人惊讶的观察会排队触发溯因问题(定义 E.2),驱动下一个 Hypothesis。这 8 个操作分为三个角色:Observe/Resolve 提交内容;Hypothesize/Support/Undermine/Revise 调整可能性或攻击关系而不擦除来源;Expand-Awareness/Question 扩展或查询而不承诺声明。

相似文章

逻辑正则化验证器激发大语言模型的推理能力

arXiv cs.CL

介绍了 LoVer,一种使用逻辑规则(否定一致性、组内一致性和组间一致性)来在无标签数据下提升大语言模型推理能力的无监督验证器,在推理基准测试中达到了接近监督验证器的性能。

当注意力关闭:LLMs如何在多轮交互中迷失线索

arXiv cs.AI

本文从机制上解释了为什么LLMs在长时间的多轮交互中会丢失指令,引入了目标可访问性比率(GAR)指标和通道转换框架。通过消融研究和残差流探针,论文表明,对定义目标词元的注意力会在回合间关闭,而目标信息在残差表示中持续存在,并出现了架构特定的失败模式。

Context Is Not Control:面向LLM的源边界评估

Reddit r/LocalLLaMA

一篇介绍《Context Is Not Control》的论文,该基准评估LLM在处理受控文本中介证据时的源边界失效问题。附带开放权重模型和前沿API模型的复现包。

令牌统计揭示多轮大语言模型交互中的对话漂移

arXiv cs.CL

本文提出双可预测性(P)和信息数字孪生(IDT),一种使用令牌频率统计来监控多轮LLM交互中对话一致性的轻量级方法,无需使用嵌入或模型内部信息。该方法在检测矛盾和话题转换时达到100%的敏感度,同时为扩展LLM部署建立了实用的监控框架。