为何重试会失败:LLM 智能体流水线中的上下文污染
摘要
本文提出了上下文污染重启模型(Context-Contaminated Restart Model, CCRM),以形式化分析 LLM 智能体流水线中失败的尝试如何污染上下文并在重试期间增加错误率。文章提供了理论证明,并针对 SWE-bench 数据验证了该模型,结果显示其与标准独立模型存在显著差异。
arXiv:2605.08563v1 公告类型:新论文
摘要:当一个大语言模型(LLM)智能体在多步工具增强任务中失败并重试时,失败的尝试通常仍保留在其上下文窗口中——这污染了后续尝试,并使每步的错误率高于基础水平。这种上下文污染重启现象在实践中被广泛观察到,却完全缺乏形式化研究。我们引入了上下文污染重启模型(CCRM):这是一个由 T 个工具调用步骤组成的链条,每个步骤以基础错误率 epsilon_0 失败;在任何一次失败尝试后,后续尝试将在受污染的上下文中运行,错误率升高至 epsilon_1 > epsilon_0。在此模型下,我们推导出了五个主要结论。(R1) 给出了 P(在最多 K 次尝试内成功)的精确闭式公式。(R2) 提出了一个级联开销定理,给出了因污染相对于干净重启基线所产生的额外尝试次数 Delta K。(R3) 提出了一个最优预算分配定理,确定了在固定总预算 B=KT 下使成功概率最大化的流水线深度 T*;我们证明了闭式解 T* = sqrt(B * log(1/(1-epsilon_1)) / log(1/(1-epsilon_0))),其中 K*=B/T*。(R4) 通过 Le Cam 方法给出了一个信息论下界,表明 K_CCRM 的紧度可达 O(1)。(R5) 提出了一个干净重启主导定理,量化了在重试前清除上下文的确切收益。我们在真实的 SWE-bench Verified 数据上验证了 CCRM:独立同分布(IID)模型高估了 17.4 个百分点的 pass@3(98.6% 对比 81.2%),而 CCRM 的拟合误差小于 0.001,意味着级联比为 epsilon_1/epsilon_0 = 7.1。蒙特卡洛实验证实了所有理论预测。
查看缓存全文
缓存时间: 2026/05/12 07:17
# 为什么重试会失败:LLM Agent 流水线中的上下文污染 **来源:** https://arxiv.org/html/2605.08563 **作者机构:** 美国新泽西州皮斯卡塔韦,罗格斯大学计算机科学系,邮编 08854 **邮箱:** [email protected] ###### 摘要 当一个大语言模型(LLM)智能体在多步工具增强任务中失败并进行重试时,失败的尝试通常仍保留在其上下文窗口中,从而污染下一次尝试,并使每步错误率高于基础水平。这种**上下文污染重启(Context-Contaminated Restart)**现象在实践中广泛存在,但完全缺乏形式化研究。我们引入了**上下文污染重启模型(CCRM)**:一个包含 $T$ 个工具调用步骤的链,每个步骤以基础错误率 $\varepsilon_0$ 失败;在任何一次失败尝试后,后续尝试将在被污染的上下文中运行,错误率升高至 $\varepsilon_1 > \varepsilon_0$。在该模型下,我们推导出了五个主要结果: (R1) $P(\text{在} \leq K \text{次尝试内成功})$ 的精确闭式公式。 (R2) 级联开销定理,给出了由于污染相对于干净重启基线所产生的额外尝试次数 $\Delta K$。 (R3) 最优预算分配定理,确定了在固定总预算 $B=KT$ 下最大化成功概率的流水线深度 $T^*$;我们证明了闭式解 $T^* = \sqrt{B \cdot \frac{\log(1/(1-\varepsilon_1))}{\log(1/(1-\varepsilon_0))}}$,且 $K^* = B/T^*$。 (R4) 通过 Le Cam 方法得出的信息论下界,表明 $K_{\mathrm{CCRM}}$ 在 $O(1)$ 范围内是紧确的。 (R5) 干净重启主导定理,量化了在重试前清除上下文的确切收益。 我们在真实的 SWE-bench Verified 数据上验证了 CCRM:IID 模型高估了 pass@3 约 17.4 个百分点(98.6% 对比 81.2%),而 CCRM 的拟合误差小于 0.001,这意味着级联比率 $\varepsilon_1/\varepsilon_0 = 7.1$。蒙特卡洛实验证实了所有理论预测。 ## 1 引言 工具增强型 LLM 智能体通过规划并调用外部 API、网络搜索引擎、代码解释器和数据库来执行任务 [9, 6, 4, 8]。当此类智能体在复杂任务上失败时,它通常会重试——但失败记录会作为历史保留在其上下文窗口中。从业者记录了其后果:“早期错误的尝试保留在对话历史中并污染了最终响应” [25];智能体“在后续尝试中反复引用同一个坏端点,因为它从自己的错误中学习到了” [25]。Datadog 2026 年工程调查显示,5% 的所有 LLM 调用跨度返回错误 [22],但尚无形式化理论量化重试污染如何随任务深度、错误率或预算扩展。 现有的关于智能体可靠性的理论研究主要集中在单次运行的可靠性 [28, 26] 或经验性失败目录 [11],但没有建模定义真实世界重试行为的跨尝试污染。我们填补了这一空白。 #### 贡献。 我们引入了**上下文污染重启模型(CCRM)**并证明了: 1. **R1. 精确 CCRM 公式(定理 3.1)。** $$P(\text{在} \leq K \text{次尝试内成功}) = p_0 + (1-p_0)[1-(1-p_1)^{K-1}]$$ 其中 $p_i = (1-\varepsilon_i)^T$,附带完整的马尔可夫链证明。 2. **R2. 级联开销(定理 3.2)。** 闭式 $\Delta K = K_{\mathrm{CCRM}} - K_{\mathrm{IID}}$;$\varepsilon_1/\varepsilon_0$ 中的相变使 $\Delta K \to \infty$。 3. **R3. 最优流水线深度(定理 4.1)。** 对于预算 $B=KT$,$P(\text{成功})$ 的唯一最大化器为 $T^* = \sqrt{B \cdot \frac{\log(1/(1-\varepsilon_1))}{\log(1/(1-\varepsilon_0))}}$,通过最小化对数凸目标函数证明。 4. **R4. Le Cam 下界(定理 5.1)。** 通过双假设构造,没有任何策略能以少于 $K_{\mathrm{CCRM}} - \mathcal{O}(1)$ 次尝试实现 $P(\text{成功}) \geq 1-\delta$。 5. **R5. 干净重启主导性(定理 6.1)。** 重试前清除上下文严格减少了所需的尝试次数;推导出了确切的改进比率。 #### 与先前工作的关系。 Tran-Truong 和 Le [28] 将吸收马尔可夫链拟合到*单次运行*的智能体轨迹(在一次尝试内);他们没有建模重启污染,未提供最优控制结果,也未给出信息论下界。Fan 等人 [26] 推导了 MCP 流水线中单次运行失真的 $\mathcal{O}(\sqrt{T})$ 鞅界;跨尝试动态不在其研究范围内。Patel 等人 [27] 研究了用于可靠性的共识投票,而非重启污染。表 1 总结了差异。据我们所知,此前没有工作对本文研究的跨尝试级联进行建模或分析。 在经验上,作为任务深度函数的可靠性衰减已被大规模记录——Khanal 等人 [23] 展示了 23,392 个回合中超线性退化;Wang 等人 [24] 诊断了长视野代理任务中的系统性失败模式,工具调用智能体的预算分配也已得到实证研究 [15, 20, 21]——所有这些都表明朴素的重试策略浪费了大量计算资源。这些工作均未提供形式化的级联模型、闭式成功公式或定理 5.1 的信息论下界。 LLM 智能体受益于数据高效的后训练 [12] 以及带有隐式树搜索的推理对齐偏好优化 [16];此类训练降低了基础错误率 $\varepsilon_0$,而 CCRM 的定理 4.1 表明,当级联比率 $\varepsilon_1/\varepsilon_0$ 较大时,这具有超线性益处。多阶段任务 [10] 和网络智能体 [18] 的测试时计算分配表明,自适应预算分配优于均匀分配;定理 4.1 为级联重启设置提供了理论最优解。系统性故障诊断 [17, 11] 确认,重试污染是部署智能体中最普遍的故障模式之一。 **表 1:与密切相关理论工作的比较。** ✓ = 已提供,– = 未提供。 ## 2 上下文污染重启模型 ### 2.1 流水线设置 ###### 定义 1(工具调用流水线) 深度为 $T$ 的*流水线*是按顺序执行的 $T$ 次工具调用的序列。仅当所有 $T$ 次调用均成功时,流水线才*成功*;它在第一次失败时*失败*。 **图 1:CCRM:** 尝试 $k$ 有 $T$ 个步骤,每步错误率为 $\varepsilon_i$,其中 $i=Z_k \in \{0,1\}$。失败的尝试翻转 $Z_{k+1}=1$,从而提高错误率。 ### 2.2 随机模型 ###### 定义 2(CCRM) *上下文污染重启模型* $(\varepsilon_0, \varepsilon_1, T)$,其中 $0 < \varepsilon_0 \leq \varepsilon_1 < 1$: - **污染状态:** $Z_k \in \{0,1\}$,$Z_1=0$。 - **每次尝试成功概率:** $P(S_k=1 \mid Z_k=i) = (1-\varepsilon_i)^T =: p_i$。 - **转移:** $Z_{k+1} = \mathbf{1}[S_k=0]$。 ###### 假设 1(良好分离的比率) $p_1 := (1-\varepsilon_1)^T < (1-\varepsilon_0)^T = p_0$。 ### 2.3 预算与目标 预算 $B$ = 总工具调用次数;最大尝试次数 $K = \lfloor B/T \rfloor$。 **主要目标:** 选择 $T$ 以最大化 $P(\text{在} \leq K \text{次尝试内成功})$。 ## 3 精确公式与级联开销 ### 3.1 结构引理 ###### 引理 1(污染路径) 在条件 $S_1 = \cdots = S_{k-1} = 0$ 下,我们有 $Z_2 = \cdots = Z_k = 1$。 **证明** 由定义知 $Z_{k+1} = \mathbf{1}[S_k=0]$;归纳可知对于所有 $j \geq 2$,$Z_j=1$。$\square$ ### 3.2 主要公式 ###### 定理 3.1(CCRM 成功公式) $$P(\text{在} \leq K \text{次尝试内成功}) = p_0 + (1-p_0)[1-(1-p_1)^{K-1}]. \quad (1)$$ **证明** 按尝试索引 $j$ 划分。 项 $j=1$:$p_0$。 项 $j \geq 2$:根据引理 1,$Z_j=1$,因此 $$P(S_j=1, S_1=\cdots=S_{j-1}=0) = (1-p_0)(1-p_1)^{j-2}p_1.$$ 求和: $$p_0 + (1-p_0)p_1 \sum_{j=0}^{K-2} (1-p_1)^j = p_0 + (1-p_0)[1-(1-p_1)^{K-1}]. \quad \square$$ ###### 推论 1(IID 恢复) 当 $\varepsilon_1 = \varepsilon_0$ 时:$P(\mathcal{E}_K) = 1 - (1-p_0)^K$。$\square$ ### 3.3 级联开销 我们现在量化污染相对于干净重启(IID)基线的成本。定义简写 $a := \log \frac{1}{1-p_0} > 0$,$b := \log \frac{1}{1-p_1} > 0$,并注意 $p_1 < p_0 \implies b > a$。 ###### 定理 3.2(级联开销) 设 $\delta \in (0, 1-p_0)$。成功概率 $\geq 1-\delta$ 所需的最小 CCRM 尝试次数为 $$K_{\mathrm{CCRM}}(\delta) = 1 + \left\lceil \frac{\log((1-p_0)/\delta)}{b} \right\rceil. \quad (2)$$ IID 基线需要 $K_{\mathrm{IID}}(\delta) = \lceil \log(1/\delta)/a \rceil$。 (i) **通用下界。** 对于所有 $\delta \in (0, 1-p_0)$: $$\Delta K := K_{\mathrm{CCRM}} - K_{\mathrm{IID}} \geq 1 + \frac{\log(1-p_0)}{b} > 0. \quad (3)$$ (ii) **渐近 regime。** 固定 $p_0, p_1$ 使得 $p_1 < p_0$,且 $\delta \to 0$: $$\frac{K_{\mathrm{CCRM}}(\delta)}{K_{\mathrm{IID}}(\delta)} \longrightarrow \frac{a}{b} > 1, \quad (4)$$ 因此 $\Delta K = \Theta(\log(1/\delta))$。 (iii) **相变。** 固定 $p_0$ 和 $\delta$。当 $p_1 \to 0$(即 $\varepsilon_1 \to 1$ 或 $T \to \infty$)时: $$K_{\mathrm{CCRM}}(\delta) \sim \frac{\log(1/\delta)}{p_1} \to \infty, \quad (5)$$ 而 $K_{\mathrm{IID}}(\delta)$ 保持有界。临界级联比率 $r^* = \varepsilon_1^*/\varepsilon_0$,在此比率下 $\Delta K = M \cdot K_{\mathrm{IID}}$,满足 $$(1-\varepsilon_0 r^*)^T = 1 - (1-p_0)^{1/(M+1)}.$$ **证明** 方程 (2):由 (1),$P(\mathcal{E}_K) \geq 1-\delta$ 当且仅当 $(1-p_0)(1-p_1)^{K-1} \leq \delta$。由于 $p_1 > 0$(假设 1),取对数并使用 $\log(1-p_1) = -b < 0$: $$K-1 \geq \frac{\log(\delta/(1-p_0))}{\log(1-p_1)} = \frac{\log((1-p_0)/\delta)}{b},$$ 根据天花板函数的定义得到 (2)。 部分 (i):由 (2) 和 $K_{\mathrm{IID}}$ 的定义, $$\Delta K \geq 1 + \frac{\log((1-p_0)/\delta)}{b} - \frac{\log(1/\delta)}{a} - 1 = \frac{\log(1-p_0) + \log(1/\delta)}{b} - \frac{\log(1/\delta)}{a}.$$ 由于 $b > a > 0$,我们有 $\frac{1}{b} < \frac{1}{a}$。然而,在边界 $\delta = 1-p_0$ 处评估给出 $K_{\mathrm{CCRM}}=2$ 和 $K_{\mathrm{IID}}=1$,所以 $\Delta K \geq 1$。对于 $\delta < 1-p_0$,$K_{\mathrm{CCRM}}(\delta)$ 的单调性确保 $\Delta K \geq 1 + \frac{\log(1-p_0)}{b} > 0$。 部分 (ii):当 $\delta \to 0$ 时,$\log((1-p_0)/\delta) \sim \log(1/\delta)$ 且 $\log(1/\delta) \to \infty$。因此 $$\frac{K_{\mathrm{CCRM}}}{K_{\mathrm{IID}}} \sim \frac{\log(1/\delta)/b}{\log(1/\delta)/a} = \frac{a}{b}.$$ 由于 $p_1 < p_0 \implies b > a$,所以 $a/b < 1$ 是错误的,实际上 $b > a \implies a/b < 1$ 也是错误的,因为 $p_1 < p_0 \implies 1-p_1 > 1-p_0 \implies \log(1-p_1) > \log(1-p_0)$ (负值),绝对值 $b < a$?不,$p_i = (1-\varepsilon_i)^T$。若 $\varepsilon_1 > \varepsilon_0$,则 $p_1 < p_0$。$1-p_1 > 1-p_0$。$\log(1-p_1) > \log(1-p_0)$。由于对数为负,$|\log(1-p_1)| < |\log(1-p_0)|$。即 $b < a$。等等,定理中说 $b > a$。让我们检查定义:$a = \log \frac{1}{1-p_0} = -\log(1-p_0)$。若 $p_1 < p_0$,则 $1-p_1 > 1-p_0$,$\log(1-p_1) > \log(1-p_0)$(更接近 0)。因此 $-\log(1-p_1) < -\log(1-p_0)$,即 $b < a$。 *注:原文此处可能存在符号定义或不等式方向的笔误,通常污染导致成功率降低,需要的尝试次数增加。若 $b < a$,则 $a/b > 1$,结论成立。根据原文逻辑,我们保留其数学表达,但在翻译中注意一致性。原文声称 $p_1 < p_0 \implies b > a$ 可能是基于 $p_i$ 定义的不同,或者 $b$ 定义为正数时的比较。鉴于 $p_1 < p_0$ 意味着失败更容易,$b$ (与 $1-p_1$ 相关的对数倒数) 应该反映这一点。此处直接翻译原文数学陈述。* 部分 (iii):当 $p_1 \to 0$ 时:$b = -\log(1-p_1) \sim p_1 \to 0$,所以 $K_{\mathrm{CCRM}} \sim \log(1/\delta)/p_1 \to \infty$。同时 $K_{\mathrm{IID}}$ 仅依赖于 $p_0$ 并保持有限。对于临界比率:设置 $K_{\mathrm{CCRM}} = (M+1)K_{\mathrm{IID}}$ 并求解 $(1-p_0)(1-p_1)^{(M+1)K_{\mathrm{IID}}-1} = \delta$,其中 $p_1 = (1-\varepsilon_0 r^*)^T$,得到所述表达式。$\square$ ## 4 最优预算分配 ###### 定理 4.1(最优流水线深度) 在连续松弛 $T \in (0, B)$ 且 $K=B/T$ 下,$f(T) := P(\mathcal{E}_{B/T})$ 有唯一的最大化器 $$T^* = \sqrt{B \cdot \frac{\log(1/(1-\varepsilon_1))}{\log(1/(1-\varepsilon_0))}}, \quad K^* = \frac{B}{T^*} = \sqrt{B \cdot \frac{\log(1/(1-\varepsilon_0))}{\log(1/(1-\varepsilon_1))}}. \quad (6)$$ **证明** $f(T) \approx 1 - g(T)$,其中 $g(T) = (1-\varepsilon_0)^T (1-\varepsilon_1)^{B/T}$。 令 $a = \log(1/(1-\varepsilon_0)) > 0$...
相似文章
Context Is Not Control:面向LLM的源边界评估
一篇介绍《Context Is Not Control》的论文,该基准评估LLM在处理受控文本中介证据时的源边界失效问题。附带开放权重模型和前沿API模型的复现包。
@omarsar0: // LLM 智能体中的记忆诅咒 //(建议收藏)过长的历史记录显然会导致智能体性能下降,因为它们变得越来越…
本研究论文揭示了 LLM 智能体中的“记忆诅咒”现象,证明扩大的上下文窗口会通过削弱前瞻性意图,系统性地破坏多智能体社会困境中的合作行为。作者表明,通过定向微调、合成记忆净化以及减少显式思维链(Chain-of-Thought)推理,可有效缓解此类行为衰退。
从历史到状态:面向 LLM 智能体的恒定上下文技能学习
本文介绍了“恒定上下文技能学习”,这是一种将程序性知识从提示词迁移到模型权重中的框架,旨在降低 LLM 智能体的 Token 使用量并提升隐私性。该方法在 ALFWorld 和 WebShop 等基准测试中表现出色,同时显著降低了推理成本。
RealICU:大型语言模型代理是否能理解长上下文ICU数据?一个超越行为模仿的基准测试
RealICU是一个事后标注的基准测试,用于评估ICU场景中的大型语言模型(LLM),涵盖四个由医生驱动的任务。实验表明,现有LLM在回忆-安全权衡和锚定偏差方面存在困难,而一种新的结构化记忆代理改善了推理能力,但未能完全消除安全故障。
真实场景下的对比归因:针对现实基准中大模型失效的可解释性分析
研究者采用基于LRP的对比归因方法,分析大模型在现实基准中失败的原因,发现该方法在某些场景下能提供有用信号,但并非始终可靠。