ReFlect：用于复杂长周期大语言模型推理的有效包装系统

arXiv cs.AI 2026/05/08 04:00 论文

llm-reasoning error-recovery chain-of-thought agent-harness arxiv long-horizon-tasks

摘要

本文介绍了 ReFlect，这是一种无需训练的包装系统，通过为大语言模型包裹确定性的错误检测与恢复逻辑，来提升其在复杂、长周期推理任务上的性能。

arXiv:2605.05737v1 公告类型：新论文摘要：当前大语言模型的推理范式包括思维链（Chain-of-Thought）、ReAct 以及事后自我批评。这些范式依赖于两个假设，但这两个假设在多阶段的长周期任务中往往失效。因此，错误会在推理步骤中无声累积，留下了一个亟待解决的问题：推理系统能否有效地检测并从自身的失败中恢复？我们提出了 ReFlect，这是一种大语言模型推理的包装（harness）系统，它创建了独立的错误检测和恢复逻辑，作为模型周围的一个确定性包装器。在六个推理领域的受控实验显示，提示层面的自我批评会产生公式化的模板，在审计的 100 个反思块中有 90 个未标记任何问题，且所研究的大语言模型在至少 76% 的情况下错误地接受了错误的答案。我们的 ReFlect 包装系统在跨越从小型到前沿规模的六种模型上，取得了从 gpt-4o-mini 的 41% 到 Claude Sonnet 4.5 的 56% 不等的任务成功率，相较于直接思维链（Direct CoT），每个模型的增益范围从 Qwen2.5-72B 的 +7 个百分点到 Claude Sonnet 4.5 的 +29 个百分点，此外还将 SWE-bench 补丁的结构质量从 0%（直接思维链）提高到 82%（Qwen2.5-72B）至 87%（GPT-4o）之间。值得注意的是，包装系统的增益与模型直接思维链的任务成功率成反比（拟合斜率为 -1.69，相关系数 r=-0.76）：基线成功率每损失 1 个百分点，包装系统就能机械性地恢复 1.69 个百分点的增益。我们注意到，添加结构化推理状态和操作算子在 Llama-3.3-70B 和 Qwen2.5-72B 上仅产生 15.0%-18.7% 的配对平均性能，因为这一规模的模型无法可靠地填充其操作算子所需的状态。ReFlect 与模型无关，无需训练，且完全在推理阶段运行。

查看原文

查看缓存全文

缓存时间: 2026/05/08 08:44

# 一种用于复杂长周期 LLM 推理的高效驾驭系统

**来源**: https://arxiv.org/html/2605.05737

###### 摘要

当前大语言模型（LLM）的推理范式包括思维链（Chain-of-Thought）、ReAct 以及事后自我批判。这些范式依赖于两个在长周期、多阶段任务中会失效的假设。结果导致错误在推理步骤中 silently 累积，留下了一个未解的问题：推理系统能否有效地检测并从自身的失败中恢复？我们提出了 ReFlect，这是一种针对 LLM 推理的*harness*（驾驭）系统，它将独立的错误检测和恢复逻辑作为模型的确定性包装器。在六个推理领域的受控实验显示，提示层面的自我批判产生了公式化的模板，在审计的 100 个反思块中有 90 个未标记任何问题，且被研究的 LLM 在至少 76% 的情况下错误地接受了错误的答案。我们的 ReFlect 驾驭系统在跨越小型到前沿规模的六种模型上取得了 41%（gpt-4o-mini）到 56%（Claude Sonnet 4.5）的任务成功率，相较于直接思维链（Direct CoT），每模型的增益范围从 Qwen2.5-72B 的 +7pp 到 Claude Sonnet 4.5 的 +29pp，此外还将 SWE-bench 补丁结构质量从 0%（Direct CoT）提升至 82%（Qwen2.5-72B）到 87%（GPT-4o）。值得注意的是，驾驭增益与模型的 Direct CoT 任务成功率成反比（拟合斜率为 -1.69，r=-0.76）：基准成功率每损失 1 个百分点，即可通过驾驭系统机械地恢复 1.69 个百分点。我们发现，在 Llama-3.3-70B 和 Qwen2.5-72B 上添加结构化推理状态和操作员仅带来 15.0–18.7% 的对均增益，因为这一规模的模型无法可靠地填充其操作员所需的状态。ReFlect 与模型无关、无需训练，且完全在推理时运行。

## 1 引言

大型语言模型（LLMs）越来越多地被部署于复杂、长周期、多阶段的推理任务中，例如多文件代码工程（Jimenez et al., 2023）、多文档科学综合（Dasigi et al., 2021）、奥林匹克级别的数学（https://arxiv.org/html/2605.05737#bib.bib14）以及基于动作的家庭规划（Shridhar et al., 2020），这些进展建立在逐步推理（Wei et al., 2022）、交错推理与行动（Yao et al., 2022）以及审慎搜索（Yao et al., 2023）的基础之上。与单次问答不同，这些任务不仅要求具备胜任的局部推理能力，还要求能够检测推理何时出错、结构性地验证中间输出，并进行确定性恢复（每个失败都映射到预定的恢复行动，例如以更严格的格式重试或回退到不同的工具）。

对于这些复杂的推理任务，大多数现有的代理式 LLM 推理系统表现出反复出现的失败：错误在轨迹中 silently 累积（Arbuzov et al., 2025; Sinha et al., 2025），模型表现出自我修正的盲点，无法检测自身的错误（Tsui, 2025），且一旦出现问题便不存在确定性的恢复程序。近期关于 LLM 代理评估和基准测试的调查（Mohammadi et al., 2025）将可靠性和恢复能力确定为关键的部署障碍，导致难以归因或修复根源的不可预测端到端失败。

现有范式在提示层面解决这个问题。思维链（CoT）（Wei et al., 2022）、ReAct（Yao et al., 2022）、Self-Refine（Madaan et al., 2023）、Reflexion（Shinn et al., 2023）、CRITIC（Gou et al., 2023）、IterResearch（Chen et al., 2025）以及工具使用框架（Toolformer（Schick et al., 2023）、ART（Paranjape et al., 2023）、Gorilla（Patile et al., 2024））都将检测与恢复逻辑置于提示或模型的自由文本轨迹内部。它们共享两个隐含假设，随着任务复杂度的增加而变得不可持续：即局部进展意味着全局进展，以及模型可以通过重读自身输出来有意义地进行自我修正。然而，最近的工作表明，当前的 LLM 无法通过 LLM 评判的批判可靠地进行自我修正（Huang et al., 2023; Pan et al., 2024），且交互式观察（Yao et al., 2022）或事后反思（Madaan et al., 2023; Shinn et al., 2023）并未解决底层的检测问题。

我们提出了 ReFlect，这是一个用确定性错误检测和恢复逻辑包裹模型的驾驭系统。一个动机性的试点研究（§4）首先确立了提示层面的自我批判不足以应对长周期多阶段推理；随后我们针对三个问题评估了两个 ReFlect 实例。RQ1（重型驾驭）：具有显式结构化状态、四个反射操作员和区域控制器设计的方案能否补偿 70B 参数模型缺失的能力？RQ2（轻型驾驭）：确定性形状路由设计是否能补偿缺失的能力，且增益是否与基础能力成反比？RQ3（增益由何承载）：在 Llama-3.3-70B 和 Qwen2.5-72B 上，五种标准原语中的哪一种——结构化状态操作员、检查调用、工具调度、结构验证器或计算路由——真正带来了增益？

我们从五个方面做出贡献。（i）具有重型（结构化状态、操作员）和轻型（形状路由、工具调度）Level-3 实例的驾驭框架。（ii）RQ1 映射了基础能力先决条件：由于状态无法被可靠填充，70B 配对上的结构化状态重型方案仅产生 15.0–18.7% 的对均增益；同一系列中的确定性 Python 路由将对均提升 do 28.0%。（iii）RQ2 建立了*能力补偿*效应：驾驭增益与 Direct CoT 准确率成反比（斜率 -1.69, r=-0.76），暗示对廉价模型部署的巨大益处。（iv）除了准确率之外的证据，涵盖收敛性、稳定性和 token 效率，通过每工具分解隔离出承载增益的因素。（v）试点++28 变体消融：90/100 的反思是公式化的，课程纠正率 ≤1.7%，且在所有 Level-2 验证器中，LLM 在 ≥76% 的情况下错误接受错误答案。

## 2 相关工作

#### 单次通过和交互式推理。

思维链提示（Wei et al., 2022）、自一致性（Wang et al., 2022）、少至多提示（Zhou et al., 2022）以及训练时的 STaR 变体（Zelikman et al., 2022）在单次前向传递中产生推理轨迹。ReAct（Yao et al., 2022）将中间步骤 grounded 在环境观察中；思维树（Tree of Thoughts）（Yao et al., 2023）增加了在推理路径上的分支搜索。这些方法提高了局部步骤的质量，但将 token 轨迹视为唯一的工作工件：没有状态表示存在于模型的自然语言轨迹之外，且唯一可用的错误检测信号是模型自身 verbalized 的内容。

#### LLM 评判的自我修正。

Self-Refine（Madaan et al., 2023）通过单独的 LLM 调用迭代直至收敛，从而将生成与批判解耦。Reflexion（Shinn et al., 2023）利用环境反馈（代码测试、游戏分数）添加跨episode记忆，并带着该上下文重试整个 episode。CRITIC（Gou et al., 2023）通过外部工具进行验证，但以自然语言文本发出批判。在这三者中，批判步骤本身是一个 LLM 调用，读写自由文本输出，在生成和修订之间没有确定性检查；最近的评估（Huang et al., 2023; Pan et al., 2024）报告称，当前模型在此机制下无法可靠地进行自我修正。我们的试点研究（§4）在 Llama-3.3-70B 和 Qwen2.5-72B 的 inline 中期批判中重现了这一发现。

#### 长周期状态和工具调度。

这两类文献都将一部分代理基础设施留在模型内部。IterResearch（Chen et al., 2025）维护一个有界工作空间 $q, M_t, \{a_{t-1}, TR_{t-1}\}$，模型每轮重写，以恒定上下文大小将交互扩展到 2,048 轮；$M_t$ 是非结构化的自然语言文本，是一种记忆而非验证器，没有程序化的矛盾检测。工具使用框架 Toolformer（Schick et al., 2023）、ART（Paranjape et al., 2023）和 Gorilla（Patile et al., 2024）教导或提示模型调用外部工具，将路由决策（哪个工具，何时）留在模型的生成流中。我们将两者都外部化：基于特征的形状分类器将每个问题确定性调度到工具注册表，每工具格式验证器通过重试处理畸形输出，该层自然地与 IterResearch（Chen et al., 2025）或 CoALA（Sumers et al., 2023）类型的工作空间重建基座组合。

## 3 推理范式分类

§2 中调查的方法沿三个结构轴不同：状态存在于何处、错误检测发生在何处，以及失败触发何种恢复行动。将方法映射到这些轴上（表1）显示，现有文献聚集在一个我们称为*LLM 评判自我修正*的区域：批判步骤本身是一个 LLM 调用，读写自由文本输出，在生成和修订之间没有确定性检查。我们在全文中采用以下四层简写。

#### Level 0–2：先前方法。

**Level 0（单次通过生成）**：CoT 及其推理时变体。状态是 token 轨迹；没有错误检测或恢复。**Level 1（交互式观察）**：ReAct 和思维树。增加了环境观察或搜索树分支，但状态仍保持在文本级别，错误检测充其量只是启发式的。**Level 2（LLM 评判自我修正）**：Self-Refine、Reflexion、CRITIC、IterResearch 以及我们作为*Minimal ReFlect*评估的 inline 中期自我批判（§4）。Level 2 的共享结构属性是批判步骤本身是一个 LLM 调用，读写自由文本；恢复受限于模型能够 verbalize 和重新生成的内容，循环中没有确定性验证器。

#### Level 3：结构性驾驭（本文）。

检测和恢复位于模型外部。确定性形状分类器将每个问题调度到专用工具，格式验证器机械地拒绝畸形输出，重试作为代码的策略触发更严格的重新生成或回退工具。模型仅在结构受限的槽位内被调用，其有效性可由驾驭系统机械检查。ReFlect 有两种实例：*轻型*设计，具有形状分类器和工具注册表（图1；§7.1，我们的主要结果）和*重型*设计，具有结构化状态、四个操作员和区域感知控制器（算法1；§6.1，在 70B 的全试点研究进展中评估，并显示在没有严格回归的情况下趋于平稳）。

表1：推理时推理范式沿三个结构轴的比较：状态存在于何处、错误检测发生在何处，以及失败时采取何种恢复行动。方法聚集在 Level 2（状态和批判都在 LLM 内部）；ReFlect 通过外部化两者占据 Level 3。

## 4 当提示层面自我批判失败时？

本节解决了一个先于三个研究问题（RQs）的动机性问题：*提示层面的自我批判足以应对长周期多阶段推理吗？*我们通过经验确立，最简化的 inline 自我批判实例（要求模型定期暂停并审计自身推理）系统地失败；这一失败推动了作为 RQ1（重型，§6）和 RQ2（轻型，§7）评估的结构化驾驭设计。

### 4.1 试点研究：设置与结果

我们运行了 360 次受控推理，交叉了四个因素：两个*模型*（Qwen2.5-72B-Instruct（Qwen Team, 2024）、Llama-3.3-70B-Instruct（Grattafiori and others, 2024）；vLLM（Kwon et al., 2023），T=0.6, top-p=0.95）；三种*方法*（Direct LLM、ReAct 和 Minimal ReFlect——ReAct 加上一个包含状态、一致性、假设、方向和决策的 5 点检查清单，每 3 步插入同一生成流中）；六个*领域*（SWE-bench Lite（Jimenez et al., 2023）、QASPER（Dasigi et al., 2021）、ProofWriter depth-5（Tafjord et al., 2021）、AIME（https://arxiv.org/html/2605.05737#bib.bib14）、ALFRED（Shridhar et al., 2020）、FinQA（Chen et al., 2021））；以及每单元格 10 个*问题*，取自主实验（§7.2）使用的每领域 50 个的基准。

核心发现：Minimal ReFlect 在任何领域、任何模型上从未优于任一基线（每领域表见附录B）。尽管 token 更多且轨迹更结构化，提示层面的自我批判并未转化为更好的答案。

### 4.2 根本原因与基本缺陷

五个根本原因解释了这一失败（详细信息见附录C；结构指标见附录D）：7%（Qwen）和 23%（Llama）的 ReFlect 运行中出现重复循环

ReFlect：用于复杂长周期大语言模型推理的有效包装系统

相似文章

学习细化隐藏状态以实现可靠的LLM推理

LLMs知道自己知道，但并未据此行动：一种用于测试时扩展的元认知框架

强化学习能否教会大型语言模型进行长程推理？表达力是关键

大语言模型何时进行推理？基于熵相变的动力系统视角

利用推理框架进行训练：面向复杂推理的在策略框架自蒸馏

提交意见反馈