ReFlect:用于复杂长周期大语言模型推理的有效包装系统
摘要
本文介绍了 ReFlect,这是一种无需训练的包装系统,通过为大语言模型包裹确定性的错误检测与恢复逻辑,来提升其在复杂、长周期推理任务上的性能。
arXiv:2605.05737v1 公告类型:新论文
摘要:当前大语言模型的推理范式包括思维链(Chain-of-Thought)、ReAct 以及事后自我批评。这些范式依赖于两个假设,但这两个假设在多阶段的长周期任务中往往失效。因此,错误会在推理步骤中无声累积,留下了一个亟待解决的问题:推理系统能否有效地检测并从自身的失败中恢复?我们提出了 ReFlect,这是一种大语言模型推理的包装(harness)系统,它创建了独立的错误检测和恢复逻辑,作为模型周围的一个确定性包装器。在六个推理领域的受控实验显示,提示层面的自我批评会产生公式化的模板,在审计的 100 个反思块中有 90 个未标记任何问题,且所研究的大语言模型在至少 76% 的情况下错误地接受了错误的答案。我们的 ReFlect 包装系统在跨越从小型到前沿规模的六种模型上,取得了从 gpt-4o-mini 的 41% 到 Claude Sonnet 4.5 的 56% 不等的任务成功率,相较于直接思维链(Direct CoT),每个模型的增益范围从 Qwen2.5-72B 的 +7 个百分点到 Claude Sonnet 4.5 的 +29 个百分点,此外还将 SWE-bench 补丁的结构质量从 0%(直接思维链)提高到 82%(Qwen2.5-72B)至 87%(GPT-4o)之间。值得注意的是,包装系统的增益与模型直接思维链的任务成功率成反比(拟合斜率为 -1.69,相关系数 r=-0.76):基线成功率每损失 1 个百分点,包装系统就能机械性地恢复 1.69 个百分点的增益。我们注意到,添加结构化推理状态和操作算子在 Llama-3.3-70B 和 Qwen2.5-72B 上仅产生 15.0%-18.7% 的配对平均性能,因为这一规模的模型无法可靠地填充其操作算子所需的状态。ReFlect 与模型无关,无需训练,且完全在推理阶段运行。
查看缓存全文
缓存时间: 2026/05/08 08:44
# 一种用于复杂长周期 LLM 推理的高效驾驭系统
**来源**: https://arxiv.org/html/2605.05737
###### 摘要
当前大语言模型(LLM)的推理范式包括思维链(Chain-of-Thought)、ReAct 以及事后自我批判。这些范式依赖于两个在长周期、多阶段任务中会失效的假设。结果导致错误在推理步骤中 silently 累积,留下了一个未解的问题:推理系统能否有效地检测并从自身的失败中恢复?我们提出了 ReFlect,这是一种针对 LLM 推理的*harness*(驾驭)系统,它将独立的错误检测和恢复逻辑作为模型的确定性包装器。在六个推理领域的受控实验显示,提示层面的自我批判产生了公式化的模板,在审计的 100 个反思块中有 90 个未标记任何问题,且被研究的 LLM 在至少 76% 的情况下错误地接受了错误的答案。我们的 ReFlect 驾驭系统在跨越小型到前沿规模的六种模型上取得了 41%(gpt-4o-mini)到 56%(Claude Sonnet 4.5)的任务成功率,相较于直接思维链(Direct CoT),每模型的增益范围从 Qwen2.5-72B 的 +7pp 到 Claude Sonnet 4.5 的 +29pp,此外还将 SWE-bench 补丁结构质量从 0%(Direct CoT)提升至 82%(Qwen2.5-72B)到 87%(GPT-4o)。值得注意的是,驾驭增益与模型的 Direct CoT 任务成功率成反比(拟合斜率为 -1.69,r=-0.76):基准成功率每损失 1 个百分点,即可通过驾驭系统机械地恢复 1.69 个百分点。我们发现,在 Llama-3.3-70B 和 Qwen2.5-72B 上添加结构化推理状态和操作员仅带来 15.0–18.7% 的对均增益,因为这一规模的模型无法可靠地填充其操作员所需的状态。ReFlect 与模型无关、无需训练,且完全在推理时运行。
## 1 引言
大型语言模型(LLMs)越来越多地被部署于复杂、长周期、多阶段的推理任务中,例如多文件代码工程(Jimenez et al., 2023)、多文档科学综合(Dasigi et al., 2021)、奥林匹克级别的数学(https://arxiv.org/html/2605.05737#bib.bib14)以及基于动作的家庭规划(Shridhar et al., 2020),这些进展建立在逐步推理(Wei et al., 2022)、交错推理与行动(Yao et al., 2022)以及审慎搜索(Yao et al., 2023)的基础之上。与单次问答不同,这些任务不仅要求具备胜任的局部推理能力,还要求能够检测推理何时出错、结构性地验证中间输出,并进行确定性恢复(每个失败都映射到预定的恢复行动,例如以更严格的格式重试或回退到不同的工具)。
对于这些复杂的推理任务,大多数现有的代理式 LLM 推理系统表现出反复出现的失败:错误在轨迹中 silently 累积(Arbuzov et al., 2025; Sinha et al., 2025),模型表现出自我修正的盲点,无法检测自身的错误(Tsui, 2025),且一旦出现问题便不存在确定性的恢复程序。近期关于 LLM 代理评估和基准测试的调查(Mohammadi et al., 2025)将可靠性和恢复能力确定为关键的部署障碍,导致难以归因或修复根源的不可预测端到端失败。
现有范式在提示层面解决这个问题。思维链(CoT)(Wei et al., 2022)、ReAct(Yao et al., 2022)、Self-Refine(Madaan et al., 2023)、Reflexion(Shinn et al., 2023)、CRITIC(Gou et al., 2023)、IterResearch(Chen et al., 2025)以及工具使用框架(Toolformer(Schick et al., 2023)、ART(Paranjape et al., 2023)、Gorilla(Patile et al., 2024))都将检测与恢复逻辑置于提示或模型的自由文本轨迹内部。它们共享两个隐含假设,随着任务复杂度的增加而变得不可持续:即局部进展意味着全局进展,以及模型可以通过重读自身输出来有意义地进行自我修正。然而,最近的工作表明,当前的 LLM 无法通过 LLM 评判的批判可靠地进行自我修正(Huang et al., 2023; Pan et al., 2024),且交互式观察(Yao et al., 2022)或事后反思(Madaan et al., 2023; Shinn et al., 2023)并未解决底层的检测问题。
我们提出了 ReFlect,这是一个用确定性错误检测和恢复逻辑包裹模型的驾驭系统。一个动机性的试点研究(§4)首先确立了提示层面的自我批判不足以应对长周期多阶段推理;随后我们针对三个问题评估了两个 ReFlect 实例。RQ1(重型驾驭):具有显式结构化状态、四个反射操作员和区域控制器设计的方案能否补偿 70B 参数模型缺失的能力?RQ2(轻型驾驭):确定性形状路由设计是否能补偿缺失的能力,且增益是否与基础能力成反比?RQ3(增益由何承载):在 Llama-3.3-70B 和 Qwen2.5-72B 上,五种标准原语中的哪一种——结构化状态操作员、检查调用、工具调度、结构验证器或计算路由——真正带来了增益?
我们从五个方面做出贡献。(i)具有重型(结构化状态、操作员)和轻型(形状路由、工具调度)Level-3 实例的驾驭框架。(ii)RQ1 映射了基础能力先决条件:由于状态无法被可靠填充,70B 配对上的结构化状态重型方案仅产生 15.0–18.7% 的对均增益;同一系列中的确定性 Python 路由将对均提升 do 28.0%。(iii)RQ2 建立了*能力补偿*效应:驾驭增益与 Direct CoT 准确率成反比(斜率 -1.69, r=-0.76),暗示对廉价模型部署的巨大益处。(iv)除了准确率之外的证据,涵盖收敛性、稳定性和 token 效率,通过每工具分解隔离出承载增益的因素。(v)试点++28 变体消融:90/100 的反思是公式化的,课程纠正率 ≤1.7%,且在所有 Level-2 验证器中,LLM 在 ≥76% 的情况下错误接受错误答案。
## 2 相关工作
#### 单次通过和交互式推理。
思维链提示(Wei et al., 2022)、自一致性(Wang et al., 2022)、少至多提示(Zhou et al., 2022)以及训练时的 STaR 变体(Zelikman et al., 2022)在单次前向传递中产生推理轨迹。ReAct(Yao et al., 2022)将中间步骤 grounded 在环境观察中;思维树(Tree of Thoughts)(Yao et al., 2023)增加了在推理路径上的分支搜索。这些方法提高了局部步骤的质量,但将 token 轨迹视为唯一的工作工件:没有状态表示存在于模型的自然语言轨迹之外,且唯一可用的错误检测信号是模型自身 verbalized 的内容。
#### LLM 评判的自我修正。
Self-Refine(Madaan et al., 2023)通过单独的 LLM 调用迭代直至收敛,从而将生成与批判解耦。Reflexion(Shinn et al., 2023)利用环境反馈(代码测试、游戏分数)添加跨episode记忆,并带着该上下文重试整个 episode。CRITIC(Gou et al., 2023)通过外部工具进行验证,但以自然语言文本发出批判。在这三者中,批判步骤本身是一个 LLM 调用,读写自由文本输出,在生成和修订之间没有确定性检查;最近的评估(Huang et al., 2023; Pan et al., 2024)报告称,当前模型在此机制下无法可靠地进行自我修正。我们的试点研究(§4)在 Llama-3.3-70B 和 Qwen2.5-72B 的 inline 中期批判中重现了这一发现。
#### 长周期状态和工具调度。
这两类文献都将一部分代理基础设施留在模型内部。IterResearch(Chen et al., 2025)维护一个有界工作空间 $q, M_t, \{a_{t-1}, TR_{t-1}\}$,模型每轮重写,以恒定上下文大小将交互扩展到 2,048 轮;$M_t$ 是非结构化的自然语言文本,是一种记忆而非验证器,没有程序化的矛盾检测。工具使用框架 Toolformer(Schick et al., 2023)、ART(Paranjape et al., 2023)和 Gorilla(Patile et al., 2024)教导或提示模型调用外部工具,将路由决策(哪个工具,何时)留在模型的生成流中。我们将两者都外部化:基于特征的形状分类器将每个问题确定性调度到工具注册表,每工具格式验证器通过重试处理畸形输出,该层自然地与 IterResearch(Chen et al., 2025)或 CoALA(Sumers et al., 2023)类型的工作空间重建基座组合。
## 3 推理范式分类
§2 中调查的方法沿三个结构轴不同:状态存在于何处、错误检测发生在何处,以及失败触发何种恢复行动。将方法映射到这些轴上(表1)显示,现有文献聚集在一个我们称为*LLM 评判自我修正*的区域:批判步骤本身是一个 LLM 调用,读写自由文本输出,在生成和修订之间没有确定性检查。我们在全文中采用以下四层简写。
#### Level 0–2:先前方法。
**Level 0(单次通过生成)**:CoT 及其推理时变体。状态是 token 轨迹;没有错误检测或恢复。**Level 1(交互式观察)**:ReAct 和思维树。增加了环境观察或搜索树分支,但状态仍保持在文本级别,错误检测充其量只是启发式的。**Level 2(LLM 评判自我修正)**:Self-Refine、Reflexion、CRITIC、IterResearch 以及我们作为*Minimal ReFlect*评估的 inline 中期自我批判(§4)。Level 2 的共享结构属性是批判步骤本身是一个 LLM 调用,读写自由文本;恢复受限于模型能够 verbalize 和重新生成的内容,循环中没有确定性验证器。
#### Level 3:结构性驾驭(本文)。
检测和恢复位于模型外部。确定性形状分类器将每个问题调度到专用工具,格式验证器机械地拒绝畸形输出,重试作为代码的策略触发更严格的重新生成或回退工具。模型仅在结构受限的槽位内被调用,其有效性可由驾驭系统机械检查。ReFlect 有两种实例:*轻型*设计,具有形状分类器和工具注册表(图1;§7.1,我们的主要结果)和*重型*设计,具有结构化状态、四个操作员和区域感知控制器(算法1;§6.1,在 70B 的全试点研究进展中评估,并显示在没有严格回归的情况下趋于平稳)。
表1:推理时推理范式沿三个结构轴的比较:状态存在于何处、错误检测发生在何处,以及失败时采取何种恢复行动。方法聚集在 Level 2(状态和批判都在 LLM 内部);ReFlect 通过外部化两者占据 Level 3。
## 4 当提示层面自我批判失败时?
本节解决了一个先于三个研究问题(RQs)的动机性问题:*提示层面的自我批判足以应对长周期多阶段推理吗?*我们通过经验确立,最简化的 inline 自我批判实例(要求模型定期暂停并审计自身推理)系统地失败;这一失败推动了作为 RQ1(重型,§6)和 RQ2(轻型,§7)评估的结构化驾驭设计。
### 4.1 试点研究:设置与结果
我们运行了 360 次受控推理,交叉了四个因素:两个*模型*(Qwen2.5-72B-Instruct(Qwen Team, 2024)、Llama-3.3-70B-Instruct(Grattafiori and others, 2024);vLLM(Kwon et al., 2023),T=0.6, top-p=0.95);三种*方法*(Direct LLM、ReAct 和 Minimal ReFlect——ReAct 加上一个包含状态、一致性、假设、方向和决策的 5 点检查清单,每 3 步插入同一生成流中);六个*领域*(SWE-bench Lite(Jimenez et al., 2023)、QASPER(Dasigi et al., 2021)、ProofWriter depth-5(Tafjord et al., 2021)、AIME(https://arxiv.org/html/2605.05737#bib.bib14)、ALFRED(Shridhar et al., 2020)、FinQA(Chen et al., 2021));以及每单元格 10 个*问题*,取自主实验(§7.2)使用的每领域 50 个的基准。
核心发现:Minimal ReFlect 在任何领域、任何模型上从未优于任一基线(每领域表见附录B)。尽管 token 更多且轨迹更结构化,提示层面的自我批判并未转化为更好的答案。
### 4.2 根本原因与基本缺陷
五个根本原因解释了这一失败(详细信息见附录C;结构指标见附录D):7%(Qwen)和 23%(Llama)的 ReFlect 运行中出现重复循环相似文章
学习细化隐藏状态以实现可靠的LLM推理
提出了ReLAR,一种强化引导的潜在细化框架,在解码前迭代更新LLM中的隐藏表示,与思维链方法相比,提高了推理可靠性和效率。
LLMs知道自己知道,但并未据此行动:一种用于测试时扩展的元认知框架
本文提出一种元认知框架,将LLMs中的监控与推理分离,利用解决前的已知感(feeling-of-knowing)和解决后的学习判断(judgment-of-learning)信号来控制何时信任、重试或聚合答案,在不更新参数的情况下提升文本、代码和多模态基准测试的准确率。
强化学习能否教会大型语言模型进行长程推理?表达力是关键
本文介绍了 ScaleLogic 框架,该框架证明了强化学习的训练计算资源消耗遵循与大型语言模型推理深度相关的幂律分布。文章强调,逻辑表达力对于提升下游迁移能力和训练效率至关重要。
大语言模型何时进行推理?基于熵相变的动力系统视角
本文探讨了思维链推理在何时对大语言模型有益,表明早期熵动力学能够可靠地指示推理效用,并介绍了EDRM,这是一个轻量级、无需训练的框架,可自适应选择推理策略,在保持或提升准确率的同时显著节省token。
利用推理框架进行训练:面向复杂推理的在策略框架自蒸馏
本文介绍了在策略框架自蒸馏(OPHSD),该方法通过自蒸馏将推理时框架的能力内化到基础模型中。该方法提高了模型在复杂推理任务上的独立性能,使模型能够在不依赖永久性外部工具的情况下保留推理辅助结构。