仅靠召回还不够:个性化语言系统中的承诺边界

arXiv cs.AI 论文

摘要

提出了一种基于合约的有限证据激活(CBEA)与词典式承诺验证(LCV)方法,以防止个性化语言系统中出现运行时控制失败——系统在拥有相关上下文的情况下仍做出错误承诺。该方案在验证器范围内实现了零失败,可用性达到0.49–0.60,显著优于基线方法。

arXiv:2605.16712v1 公告类型:新论文 摘要:长上下文和记忆系统通常将个性化视为一个召回问题。实际上,许多失败发生在后续阶段,当系统做出承诺时:它将模糊的提示转化为硬约束,丢弃罕见证据,忘记下游义务,或在不可行的情况下仍给出回答。我们引入了基于合约的有限证据激活(CBEA)与词典式承诺验证(LCV)。CBEA使用类型化覆盖、尾部证据和后果债务来激活有限的证据集;LCV在生成文本之前验证结构化承诺,并将不可行状态引导至修复、弃权或重新协商。在360个测试用例和三个生成后端的实验中,CBEA+LCV在验证器范围内实现了零失败,可用性为0.49–0.60。使用相同LCV门的原始和长上下文基线仅在0.003–0.092的可用性下达到零失败。影子预言诊断显示了极限:CBEA+LCV召回了0.012的未编译可见事实,而原始召回率为0.53。结果是一个有限的操作点:显式的承诺控制和输入负载中位数降低74–75%,而非通用的记忆主导。
查看原文
查看缓存全文

缓存时间: 2026/05/19 06:35

# 1 引言
来源:https://arxiv.org/html/2605.16712

###### 摘要

长上下文和记忆系统通常将个性化视为一个召回问题。在实践中,许多失败发生在后面阶段,即系统做出承诺时:它会将模糊的线索转化为硬约束,丢弃稀有证据,忘记下游义务,或在不可行的情况下仍然做出回答。我们引入了*合约约束的证据激活*(CBEA)和*词典式承诺验证*(LCV)。CBEA 使用类型化覆盖、尾部证据和后果债务来激活一个有界的证据集;LCV 在生成文本之前验证结构化的承诺,并将不可行状态导向修复、弃权或重新签约。在 360 个测试用例和三个生成后端的测试中,CBEA+LCV 在验证器范围内达到了零失败,可用性在 0.49-0.60 之间。使用相同 LCV 门的原始和长上下文基线仅在 0.003-0.092 的范围内达到零。一个影子预言诊断标明了界限:CBEA+LCV 仅召回 0.012 的未编译可见事实,而原始召回为 0.53。结果是一个有界的运行点:明确的承诺控制和中位输入负载降低了 74-75%,而非通用的记忆主导。

记忆是不够的:在个性化语言系统中界定承诺

长期个性化必须保留已确认的用户约束,同时适应嘈杂且不断变化的状态。流畅的响应仍然可能丢弃硬约束,过度重视近期上下文,丢失稀有证据,或者在没有响应与合约兼容时继续。我们称这些为*运行时控制故障*:在收集证据之后、安全兑现承诺之前发生的错误。标准的替代方案——将原始用户历史填入提示——要求模型在每一次交互中重新发现哪些事实重要。同一句话可能在多次交互中被重新解释,硬约束被扁平化为软偏好,稀有证据消失,除非运行时保留一个明确的义务模型。

这种故障模式与普通的记忆故障不同。系统可能检索到相关的句子,但如果它把软提示当作硬约束,忽略所需的证据,或者未能识别可行集为空,仍然可能做出错误的承诺。相反,一个系统可能既流畅又有用,同时却无法满足任何我们能够验证的声明。因此,核心问题不仅仅是向模型展示什么上下文,还包括在选定上下文之后,运行时被允许兑现哪些承诺。

我们在合约约束下通过运行时控制来解决这个问题:运行时决策受到由验证器覆盖的、明确确认的结构化承诺的约束。澄清针对具有高下游影响的缺失信息;编译将确认的信息转化为硬谓词、证据单元、可变状态和所需覆盖;CBEA 选择有界证据;LCV 在生成文本之前过滤结构化承诺;不可行状态导向修复、弃权或重新签约,而非做出新的承诺。

本文有意区分了两个边界。在编译合约内部,运行时可以针对显式谓词和覆盖要求验证结构化承诺。在该边界之外,未编译的事实仍然是普通上下文:该方法可能会遗漏它们,而我们衡量的正是这种遗漏,而不是隐瞒它。这就是为什么评估报告了验证器覆盖的控制故障,以及对未编译入合约的可见事实的影子预言诊断。

本文做出了四项贡献:

1.  1. CBEA,一个基于本地相关性、合约覆盖、尾部证据保留、后果债务和过度个性化惩罚的有预算证据激活目标;
2.  2. LCV,一个词典式验证规则,其不变性附加到由验证器覆盖的结构化承诺上,而非无限制的文本;
3.  3. 在九个变体和 360 个测试用例上进行匹配评估,涵盖硬约束、覆盖、证据、不可行延续、后果和修复,以及一个由 CBEA 选择的提示构建的长历史负载诊断;
4.  4. 模型法官对 90 个案例在六个保真度维度上进行审计,结合隐私保护的生产聚合数据作为诊断证据而非因果结果证据。

## 2 相关工作与定位

#### 长期任务。

最近的基准测试已经研究了长期个性化与上下文偏好推断。HorizonBench 追踪长时间模拟历史中演变的偏好 (Li et al., 2026b (https://arxiv.org/html/2605.16712#bib.bib6)); CUPID 从交互历史中评估上下文对齐 (Kim et al., 2025 (https://arxiv.org/html/2605.16712#bib.bib7))。我们的目标不仅仅是偏好推断,而是证据存在后的运行时控制。

#### 记忆。

记忆系统解决上下文压力下的召回问题。TiMem 提出时间分层记忆巩固 (Li et al., 2026a (https://arxiv.org/html/2605.16712#bib.bib8)),而 OP-Bench 表明记忆可能因不相关、重复和谄媚而被误用 (Hu et al., 2026 (https://arxiv.org/html/2605.16712#bib.bib9))。我们还包括一个针对经典 MMR 选择器的选择器级诊断 (Carbonell and Goldstein, 1998 (https://arxiv.org/html/2605.16712#bib.bib10); 与 CBEA 不同,MMR 没有类型化覆盖、尾部证据或后果债务项。因此,我们将证据激活视为验证和实现之前的约束运行时决策。

#### 澄清。

先前的工作研究了用于偏好澄清的澄清 (Montazeralghaem et al., 2025 (https://arxiv.org/html/2605.16712#bib.bib1); Zhang et al., 2024 (https://arxiv.org/html/2605.16712#bib.bib2))、配置文件压缩 (Shi et al., 2025 (https://arxiv.org/html/2605.16712#bib.bib3); Qiu et al., 2025 (https://arxiv.org/html/2605.16712#bib.bib4)) 和长上下文限制 (Du et al., 2025 (https://arxiv.org/html/2605.16712#bib.bib5))。这些工作促使运行时的真实性从原始配置文件文本转移到显式产物上。

#### 提示压缩与 RAG。

压缩和检索基线降低了上下文成本,但本身并未定义哪些约束是硬的、哪些证据是必须的,或者当不存在可行答案时系统必须做什么。因此,我们的比较包括原始历史、摘要、密集检索、长上下文提示以及工具/记忆基线,但主要主张涉及放置在证据选择之后控制接口:结构化承诺要么被验证器覆盖,要么不在保证范围内。

#### 验证。

基于合约的规划分离了检索、类型化约束、验证、修复和弃权 (Agarwal, 2026 (https://arxiv.org/html/2605.16712#bib.bib11))。我们的设置不同:约束由用户确认,状态演变,证据不完整,验证后的承诺通过语言实现。我们借用了这样一个边界:安全保障仅适用于由验证器覆盖的结构化承诺。

#### 定位。

我们最接近的比较不是单独的个性化记忆,而是那些分离检索、约束表示、验证和修复的系统。与以往工作不同,我们的贡献在于将它们集成到一个用于嘈杂的长期个性化语言系统的运行时控制方法中。

## 3 形式化运行时模型

本文的核心对象是结构化承诺上的运行时。令 \(x\_\{0:t\}\) 为嘈杂用户观察序列,包括表单、标签、自由文本和先前的轮次。运行时维护一个已确认的硬合约 \(h\_\{t\}\),可变状态 \(u\_\{t\}\),共享证据池 \(E\_\{t\}\),所需覆盖集 \(R\_\{t\}\),以及结构化动作空间 \(\mathcal\{A\}\)。

###### 定义 1(已确认的硬合约)。

硬合约是一个集合

\[
h\_\{t\}=\{(\phi\_\{j\},\pi\_\{j\})\}\_\{j=1\}^\{m\_\{t\}\},
\]

其中每个 \(\phi\_\{j\}:\mathcal\{A\}\rightarrow\{0,1\}\) 是一个机器可检查的硬谓词,\(\pi\_\{j\}\) 是一个来源记录。只有明确确认的谓词才属于 \(h\_\{t\}\)。推断或未解决的约束仍处于不可变合约之外。

###### 定义 2(证据池)。

证据池是一个有限集合

\[
E\_\{t\}=\{e\_\{i\}=(z\_\{i\},d\_\{i\},\rho\_\{i\},\tau\_\{i\},\kappa\_\{i\})\}\_\{i=1\}^\{n\_\{t\}\},
\]

其中 \(z\_\{i\}\) 是一个证据单元,\(d\_\{i\}\) 是其维度,\(\rho\_\{i\}\) 是来源元数据,\(\tau\_\{i\}\) 是尾部证据指示器,\(\kappa\_\{i\}\) 是激活成本。选定的证据单元,而非原始配置文件文本,是与生成之间的操作接口。

###### 定义 3(所需覆盖集)。

运行时为当前轮次或结果导出所需证据维度的集合

\[
R\_\{t\}=\Gamma(h\_\{t\},u\_\{t\},c\_\{t\}).
\]

需求可能来自已确认的硬谓词、所需证据字段、后果债务、本地场景义务或不可行性检查。令 \(M\_\{t\}\in\{0,1\}^\{|E\_\{t\}|\times|R\_\{t|\}\) 为一个证据需求覆盖矩阵,其中 \(M\_\{ir\}=1\) 表示证据单元 \(e\_\{i\}\) 覆盖了需求 \(r\)。

#### CBEA。

CBEA 通过一个有预算的目标(而非 top-\(k\) 检索)来选择证据。对于候选证据子集 \(Z\subseteq E\_\{t\}\),定义

\[
\begin{aligned}
J\_\{t\}(Z)=&\lambda\_\{r\}\,\mathrm\{Rel\}(Z,c\_\{t\})+\lambda\_\{c\}\,\mathrm\{Cov\}(Z,R\_\{t\}) \\
&+\lambda\_\{w\}\,\mathrm\{Tail\}(Z)+\lambda\_\{d\}\,\mathrm\{Debt\}(Z,u\_\{t\}) \\
&-\lambda\_\{o\}\,\mathrm\{Over\}(Z,c\_\{t\}),
\end{aligned}
\]

其中 \(\mathrm\{Rel\}\) 衡量本地相关性,\(\mathrm\{Cov\}\) 衡量需求覆盖,\(\mathrm\{Tail\}\) 奖励保留罕见但关键的尾部证据,\(\mathrm\{Debt\}\) 奖励下游义务所需的证据,\(\mathrm\{Over\}\) 惩罚不相关或侵入性的个性化。需求覆盖通过一个覆盖指示器从 \(M\_\{t\}\) 计算:

\[
\mathrm\{Cov\}(Z,R\_\{t\})=\textstyle\sum\_\{r\in R\_\{t\}\} w\_\{r\}\,\eta\_\{r\}(Z),\quad \eta\_\{r\}(Z)=\mathbf\{1\}[\exists e\_\{i\}\in Z: M\_\{ir\}=1].
\]

CBEA 选择

\[
Z\_\{t\}^\{\star\}\in\operatorname\{arg\,max\}\_\{Z\subseteq E\_\{t\}\} J\_\{t\}(Z) \quad \text{s.t.} \quad \sum\_\{e\_\{i\}\in Z\} \kappa\_\{i\}\leq \mathcal\{B\}\_\{t\}.
\]

在实现中,该目标可以通过贪心预算覆盖来近似求解。预留预算 \(\mathcal\{B\}\_\{t\}=\mathcal\{B\}\_\{t\}^\{main\}+\mathcal\{B\}\_\{t\}^\{tail\}\) 让运行时能够将与普通高相关性证据分开保护所需的尾部证据。相应的消融实验会移除覆盖项、尾部预留项或后果债务项。

#### LCV。

候选生成器从 \(Z\_\{t\}^\{\star\}\) 构建一个有限的结构化承诺集合 \(\mathcal\{A\}\_\{t\}\subseteq\mathcal\{A\}\)。对于每个候选,LCV 计算一个违反向量

\[
\nu\_\{t\}(a)=\big(\nu\_\{h\}(a,h\_\{t\}),\nu\_\{c\}(a,Z\_\{t\}^\{\star\},R\_\{t\}),\nu\_\{0\}(a),-S(a;u\_\{t\},Z\_\{t\}^\{\star\},c\_\{t\})\big),
\]

其中 \(\nu\_\{h\}\) 计算由验证器覆盖的硬谓词失败次数,\(\nu\_\{c\}\) 计算缺失所需证据覆盖的次数,\(\nu\_\{0\}\) 指示运行时在诊断出没有由验证器覆盖的可行候选时仍然发出承诺,\(S\) 是一个基于可变状态和本地上下文的软效用分数。LCV 通过词典式最小化对候选进行排序:

\[
\tilde\{a\}\_\{t\}\in\operatorname\{arg\,lexmin\}\_\{a\in\mathcal\{A\}\_\{t\}\}\nu\_\{t\}(a).
\]

为了可读性,令 \(\bar\{\nu\}\_\{h,t\}(a)=\nu\_\{h\}(a,h\_\{t\})\) 和 \(\bar\{\nu\}\_\{c,t\}(a)=\nu\_\{c\}(a,Z\_\{t\}^\{\star\},R\_\{t\})\)。可行集是

\[
\mathcal\{F\}\_\{t\}=\{a\in\mathcal\{A\}\_\{t\}: \bar\{\nu\}\_\{h,t\}(a)=0,\; \bar\{\nu\}\_\{c,t\}(a)=0\}.
\]

如果 \(\mathcal\{F\}\_\{t\}\neq\varnothing\),运行时发出

\[
a\_\{t\}^\{\star\}\in\operatorname\{arg\,max\}\_\{a\in\mathcal\{F\}\_\{t\}\} S(a;u\_\{t\},Z\_\{t\}^\{\star\},c\_\{t\}),
\]

实现它并更新可变状态:

\[
y\_\{t\}=G\_\{\psi\}(a\_\{t\}^\{\star\},u\_\{t\},Z\_\{t\}^\{\star\},c\_\{t\}), \quad u\_\{t+1\}=U(u\_\{t\},a\_\{t\}^\{\star\},x\_\{t+1\}).
\]

如果 \(\mathcal\{F\}\_\{t\}=\varnothing\),运行时不得像可行时一样发出承诺。LCV 诊断出不可行的原因,例如缺失证据、合约冲突、不支持的承诺或验证器失败。令 \(\delta\_\{t\}\) 表示该原因。运行时调用一个受限的修复操作符

\[
o\_\{t\}=\Omega(\delta\_\{t\},h\_\{t\},u\_\{t\},Z\_\{t\}^\{\star\},c\_\{t\}),
\]

其中 \(o\_\{t\}\) 是修复、弃权、回退或明确的重新签约。在我们的实现中,缺失证据映射到澄清,合约冲突映射到重新签约,不支持或验证失败的候选映射到弃权或回退。这些行为不带有承诺,并与有效的结构化承诺分开评分。附录 6 (https://arxiv.org/html/2605.16712#A6) 给出了一个说明性的 LCV 修复路由草图。

###### 假设 1(由验证器覆盖的结构化发射)。

验证器恰好覆盖 \(h\_\{t\}\) 中针对可解析结构化承诺的已确认谓词。修复、弃权和重新签约行为不带有承诺:它们可能请求缺失信息、拒绝继续或要求明确的合约修正,但不得以建议的形式夹带新的承诺。超时、无输出、解析失败、部分输出和空白输出不被视为安全发射;它们是系统级失败或不可评估状态,有明确的分母。

###### 性质 1(由验证器覆盖的发射边界)。

在精确验证器覆盖 \(h\_\{t\}\) 中谓词的情况下,任何发出的结构化承诺 \(a\_\{t\}^\{\star\}\) 都满足 \(h\_\{t\}\) 中所有已确认的硬谓词。当 \(\mathcal\{F\}\_\{t\}=\varnothing\) 时,不发出任何结构化承诺;运行时仅限于修复、弃权或明确的重新签约。这个不变性与基准测试中使用的预言级违反指标不同。

该属性是一个声明边界,而非涵盖所有自然语言含义的定理。保证附加于 \(a\_\{t\}^\{\star\}\),而表层实现器 \(G\_\{\psi\}\) 仍然是一个单独评估的层,因为即使底层承诺是有效的,文本也可能引入不支持的推论。

表 1:本文围绕运行时对象组织。评估指标源于这些对象,而非通用流畅度或参与度。

## 4 CBEA 和 LCV 运行时算法

图 1 (https://arxiv.org/html/2605.16712#S4.F1) 展示了该方法。模型无需在每次交互时从原始背景文本中重新发现用户合约;运行时编译约束、激活证据、验证承诺,然后才生成语言。

相似文章

Context Is Not Control:面向LLM的源边界评估

Reddit r/LocalLLaMA

一篇介绍《Context Is Not Control》的论文,该基准评估LLM在处理受控文本中介证据时的源边界失效问题。附带开放权重模型和前沿API模型的复现包。

部分证据基准:对智能体系统中授权受限证据的评估

arXiv cs.AI

本文提出了 Partial-Evidence-Bench,这是一个用于衡量智能体 AI 系统中“授权受限证据”失败模式的确定性基准测试。它评估模型在处理访问控制限制可见性的任务时的表现,重点考察其识别并报告信息不完整的能力,而非悄无声息地生成看似完整实则遗漏关键信息的回答。

不归点:语言模型推理中欺骗承诺的反事实定位

arXiv cs.CL

引入反事实定位方法,用于识别语言模型在推理过程中何时对欺骗做出承诺。该方法使用五个环境,包含四个推理模型的146万句子语料库。研究表明,基于注意力的转换特征在不同环境中具有泛化能力,可用于检测欺骗承诺。

基于依据的延续:一种用于LLM对话的线性时间运行时验证器

arXiv cs.AI

本文介绍了基于依据的延续(Grounded Continuation),一种用于LLM对话的线性时间运行时验证器,它维护一个显式依赖图,以检测下一句话是否得到先前对话的支持,在包括LongMemEval和LoCoMo的基准测试中,相比基线取得了准确率提升。