面向执行轨迹的推理时对齐框架
摘要
本文研究LLM智能体的框架设计,将其分解为任务拆解和引导执行,并展示了更精细的框架并非一致更好;它揭示了失败模式,并提出了部分框架的有效性。
arXiv:2605.21516v1 Announce Type: new
摘要:框架工程已成为大型语言模型(LLM)智能体的一种重要推理时技术,旨在通过任务拆解和引导执行来提升长期性能。然而,更精细的框架并非一致更好:增加拆解或引导有时能改进执行,但也可能降低最终任务成功率。我们通过推理时轨迹对齐的视角研究框架设计。该视角将框架分为两种机制:任务拆解(将任务结构化为子目标)和引导执行(在执行过程中重塑局部动作分布)。这种拆分使我们能够量化工作流粒度、重试预算以及引导诱导的动作重加权如何塑造框架设计的性能极限。进一步,它揭示了具体的失败模式,包括过度分解、过度剪枝和幻觉执行。我们通过受控的合成实验和真实终端智能体基准测试验证了这些预测。受理论启发,我们进一步展示了有效框架可以是部分式的:仅指定初始步骤,将剩余执行留给智能体,其通过率可能高于完全结构化的工作流。
查看缓存全文
缓存时间: 2026/05/22 08:47
# 基于执行轨迹的推理时对齐的约束工程技术 来源:https://arxiv.org/html/2605.21516 王博源⋄\\diamond,李博超⋄\\diamond,王铭涵⋄\\diamond,陶宇昕†\\dagger,孔芳†\\dagger ###### 摘要 约束工程(Harness engineering)已成为大型语言模型(LLM)代理的重要推理时技术,旨在通过任务分解和引导执行来提升长期性能。然而,更精细的约束并不总是更好:增加分解或引导有时可以改善执行,但也可能降低最终任务成功率。我们从推理时轨迹对齐的角度研究约束设计。这一视角将约束分为两种机制:任务分解(将任务结构化为子目标)和引导执行(在执行过程中重塑局部动作分布)。这种分解使我们能够量化工作流粒度、重试预算以及引导引起的动作重新加权如何塑造约束设计的性能极限。它进一步揭示了具体的失败模式,包括过度分解、过度剪枝和幻觉执行。我们通过受控合成实验和真实终端代理基准来验证这些预测。受理论启发,我们进一步表明,有效的约束可以是部分的:仅指定初始步骤,将剩余执行交给代理,这比完全结构化的工作流能达到更高的通过率。南方科技大学 ††footnotetext:⋄同等贡献。††footnotetext:†通讯作者:[email protected] (https://arxiv.org/html/2605.21516v1/[email protected]) 和 [email protected] (https://arxiv.org/html/2605.21516v1/[email protected])。 ## 1 引言 大型语言模型代理在解决涉及复杂软件工程(claudecode2026; codexcli2026)、科学发现(qu2026crispr; jin2025stella)和自主工具使用(zeng2026glm; team2025kimi)的长时域交互任务中展现了令人印象深刻的能力。其背后的关键技术是*约束(harnessing)*:一种将人类先验注入代理执行过程的策略(openai2026harnessengineering; Langchain2026; Anthropic_harness)。通过将长时域任务分解为结构化的子目标,并为中间决策提供引导,约束使代理能够更可靠地以自主方式完成复杂任务(autoresearch; agentsmd; Harbor_Framework; BrowserHarness)。这种成功暗示了一个诱人的直觉:越精细的约束应该带来越好的代理。从这个观点看,约束设计变成了一个增加结构的问题:更细粒度的分解、更详细的指令和更严格的执行约束(erdogan2025planandact; Wang2025DyFlowDW; dang2025multi)。然而,这种直觉与人工智能历史上的一个核心教训(bitterlesson)相冲突:人类设计的结构短期内往往有帮助,但从长期看可能限制系统搜索、适应和扩展的能力(yan2025reformreducinghuman; guo2025deepseek; Silver2017MasteringTG)。这提出了一个基本问题:约束应该指定什么?又应该留待代理自行解决什么? 为了回答这个问题,我们从理论上建模了约束如何塑造LLM代理的推理时轨迹。我们将约束分为两个组成部分:*工作流(workflow)*,指定代理在每个阶段应该达到什么目标;以及*引导(guidance)*,偏置代理在该阶段内的行为方式。这种分离通过阶段级差距产生了两个发现。首先,更细粒度的分解并不总是更好。最优粒度必须使所需子目标规模与代理在给定容差和重试预算下的可控进展规模相匹配。其次,引导只有在对齐时才有帮助。它通过将概率质量转移到可恢复的动作上来改善性能。此外,当引导偏向于遵循指令而非任务证据的动作时,反而可能导致幻觉响应。这些发现将约束设计重新定义为一个对齐问题,其中强加的结构必须与代理能力和可用的任务证据相匹配。除了这些观察之外,我们发现尽管约束通常是为整个任务设计的,但仅保留其早期阶段可能更有效。这指向了一个反直觉的约束设计原则:有效的约束不需要指定完整的执行路径。我们将这一思想形式化为*部分约束(Partial Harnessing)*,这是一种新的设计策略,只指定初始阶段,将剩余执行留给代理。我们的实验表明,部分约束可以优于完全指定的工作流,这表明约束设计不仅应决定添加什么结构,还应决定何时停止添加。我们总结贡献如下: - • 我们将约束设计形式化为一个推理时对齐问题,将约束分解为工作流和引导组件,得出两个阶段级原则:子目标规模应与代理能力匹配,引导应与任务证据匹配。 - • 我们引入部分约束作为一种设计策略,一旦其可靠性成本超过尾风险降低时停止搭建框架,通过边际停止规则形式化。 - • 我们在合成累积进度任务和 Terminal-Bench v2 上通过实验验证了这些预测,其中对齐模式出现,并且部分约束优于完整工作流。 引用图例 图 1: 约束代理执行的对齐原则 ## 2 相关工作 长时域代理执行。LLM代理已从单步响应者发展为能够在交互环境中执行长时域任务的系统。起点是 ReAct(yao2022react)的推理-动作循环,后续工作通过反馈和记忆(shinn2023reflexion; packer2023memgpt)以及显式规划和搜索(yao2023tree; zhou2023language)进行了扩展。随着这些能力的成熟,评估转向了真实的长时域环境,涵盖网页交互(zhou2023webarena)、软件工程(jimenez2023swe)和计算机使用(xie2024osworld),促使最近的系统将周围的脚手架本身视为设计对象,并优化编排执行的工作流(hong2023metagpt; zhang2024aflow)。贯穿这一进展的一个共同线索是每一步都在模型周围添加更多人类设计的结构。我们的工作问的是这种结构实际应该指定什么,以及什么应该留给代理。 约束优化。一条相关的工作线将LLM执行周围的脚手架视为优化目标。早期方法通过生成、评分或精炼自然语言指令直接优化提示词(zhou2022large; pryzant2023automatic; yang2024opro; fernando2023promptbreeder)。这一观点从单提示扩展到了多阶段LM程序,其中诸如DSPy、MIPRO、Self-Refine和TextGrad等系统跨多个模型调用优化指令、示例或中间产物(khattab2023dspy; opsahl2024optimizing; madaan2023self; yuksekgonul2024textgrad)。最近的工作将搜索空间扩展到代理模块、可执行工作流和完整约束实现(shang2024agentsquare; hu2024automated; agrawal2025gepa; novikov2025alphaevolve; lee2026meta)。这些工作主要问如何发现更好的脚手架。相比之下,我们问的是何时额外的脚手架实际上有帮助:哪些分解和引导规则与代理的执行对齐,哪些过度指定了轨迹。 人类先验与代理自主性。一条更广泛的工作线研究人类与自主系统之间应如何共享控制。混合主动交互和可调自主性表明,权威不必完全属于任何一方,而可以根据不确定性、上下文和任务需求进行分配(Horvitz1999PrinciplesOM; scerri2002towards)。最近的LLM代理系统重新审视了这个问题,人类提供目标、约束、反馈或监督,而代理执行越来越长时域的任务(feng2024large; zou2025call; wang2025interaction)。约束设计是这个权衡的具体实例:它通过分解和引导指定了轨迹的一部分,而将剩余部分留给代理解决(pan2026natural; bui2026building)。我们的工作研究这种人类先验何时改善执行,以及何时过度约束代理的执行。 ## 3 初步直觉 ### 3.1 双时间尺度视图 我们将解决任务视为在两个相互作用的时间尺度上进行,一个由约束驱动,一个由代理驱动。*外部*时间尺度属于约束,它规划出子目标序列 $g_1 \to g_2 \to \cdots \to g_T$ 通向最终答案,并一次一个子目标地沿着这个计划推进。*内部*时间尺度属于代理:给定当前子目标 $g_t$,它重复地采取动作并观察结果状态,直到 $g_t$ 被满足,此时控制返回给约束并揭示 $g_{t+1}$。关键是,在这个内部循环中约束并非保持沉默:即使在代理选择每一步时,约束也同时*塑造*着这个循环,将轨迹向它认为对 $g_t$ 有益的行为方向推动。因此两个时间尺度承载了一个清晰的分工:约束决定*接下来做什么*以及*在执行过程中偏重哪些轨迹*,而代理决定*如何执行每一步*。 ### 3.2 约束如何塑造执行 我们现在精确化这两个时间尺度。考虑任务 $x \sim \mathcal{D}$,每个任务有一个唯一正确的最终答案 $y^\star(x)$,定义一个*约束*为参数化为 $h=(\kappa,\lambda,\psi)$ 的推理时脚手架,其中 $\kappa$ 控制分解粒度,$\lambda$ 控制引导强度,$\psi$ 指定局部引导规则。这三个参数沿着两个时间尺度清晰划分:$\kappa$ 控制外部尺度,而 $\lambda,\psi$ 控制内部尺度。 对于外部时间尺度,应用于任务 $x$ 的 $\kappa$ 诱导出有序子目标序列 $\Delta_h(x) = (g_1, \ldots, g_{T_h(x)})$,即上述直觉中的粗略计划。这个序列固定了阶段级结构,但将每个内部轨迹留给代理,因此一个完整的约束条件执行具有形式: $$\tau_h(x) = (g_1, \tau_1, \ldots, g_T, \tau_T), \quad T = T_h(x),$$ 其中每个 $\tau_t = (s_{t,0}, a_{t,0}, \ldots, a_{t,n_t-1}, s_{t,n_t})$ 是在追求 $g_t$ 时生成的内部轨迹,状态 $s_{t,j} \in \mathcal{S}$ 和动作 $a_{t,j} \in \mathcal{A}$。每个 $\tau_t$ 实际如何产生是内部时间尺度的工作。 对于内部时间尺度,令 $K_{t-1}$ 收集阶段 $t$ 之前观察到的所有内容,即任务以及所有先前的子目标和轨迹。没有引导时,代理从 $K_{t-1}$ 和 $g_t$ 展开 $\tau_t$,依据其*基础轨迹分布* $\mathbb{Q}_{t,0}(\tau_t \mid K_{t-1}, g_t)$,该分布由 $a_{t,j} \sim q_h(\cdot \mid H_{t,j})$ 自回归定义,其中 $H_{t,j} = (K_{t-1}, g_t, s_{t,0}, a_{t,0}, \ldots, a_{t,j-1}, s_{t,j})$。基础分布刻画了代理独立行动时的行为;约束的作用是重塑它。 这种重塑通过 $\psi$ 和 $\lambda_t$ 实现,它们共同决定一个非负权重 $W_{t,\lambda_t}(K_{t-1}, g_t, \tau_t)$,衡量候选轨迹与 $\psi$ 为 $g_t$ 规定的行为对齐的程度。用这个分数重新加权基础分布得到*引导轨迹分布*: $$\mathbb{Q}_{t,\lambda_t}(\tau_t \mid K_{t-1}, g_t) \propto \mathbb{Q}_{t,0}(\tau_t \mid K_{t-1}, g_t) \, W_{t,\lambda_t}(K_{t-1}, g_t, \tau_t),$$ 它支配代理在阶段 $t$ 的实际行为。强度 $\lambda_t$ 控制这个重新加权的幅度:当 $\lambda_t=0$ 时权重均匀,引导分布退化为基础分布;随着 $\lambda_t$ 增长,$\mathbb{Q}_{t,\lambda_t}$ 集中在 $\psi$ 偏好的轨迹上。一旦 $\tau_t$ 终止,控制返回给约束,揭示 $g_{t+1}$,这个双层过程重复直到阶段 $T$ 完成。 ### 3.3 从最终成功到阶段级可恢复性 我们现在精确化这个分解。令 $y(\tau_h)$ 表示执行 $\tau_h$ 产生的最终答案,定义最终成功事件为 $\mathrm{Succ}_x(\tau_h) := \{y(\tau_h) = y^\star(x)\}$,并写出原始的约束设计目标: $$\max_h \; \mathbb{E}_{x \sim \mathcal{D}} \left[ \mathbb{P}_h (\mathrm{Succ}_x(\tau_h) \mid x) \right].$$ 为了将这个最终目标与过程级行为联系起来,我们引入阶段 $t$ 后的已完成前缀 $K_t := (x, g_1, \tau_1, \ldots, g_t, \tau_t)$,其中 $K_0 := x$,并令 $B_t$ 表示 $K_t$ 是*可恢复的*事件,即在剩余计划 $(g_{t+1}, \ldots, g_T)$ 下存在某个延续仍能达到 $y^\star(x)$。上述直觉说最终成功等价于可恢复性贯穿始终,在目标一致性下我们将其写为: $$\mathrm{Succ}_x(\tau_h) \equiv \bigcap_{t=1}^{T_h(x)} B_t.$$ 这个等价关系将最终目标转化为阶段级乘积。由链式法则: $$\mathbb{P}_h (\mathrm{Succ}_x(\tau_h) \mid x) = \prod_{t=1}^{T_h(x)} \bar{p}_t(h; x), \quad \bar{p}_t(h; x) := \mathbb{P}_h(B_t \mid B_0 \cap \cdots \cap B_{t-1}, x).$$ 现在我们通过将其展开为条件项的乘积来结构式地理解这个乘积。在阶段 $t$,前缀 $K_{t-1}$ 已知,子目标 $g_t$ 由 $\kappa$ 固定,然后代理从 $\mathbb{Q}_{t,\lambda_t}$ 抽取 $\tau_t$。可恢复性 $B_t$ 要求 $\tau_t$ 停在某个允许从 $K_t$ 延续到 $y^\star(x)$ 的状态。若此,通过引导的基础分布权重将引导与基础分布下的可恢复性概率联系起来。具体地,在 $K_{t-1}$ 下,阶段 $t$ 的可恢复性概率为: $$\bar{p}_t(h; x) = \sum_{\tau_t \text{ 可恢复}} \mathbb{Q}_{t,\lambda_t}(\tau_t \mid K_{t-1}, g_t).$$ 此式显示约束设计通过两个杠杆影响 $\bar{p}_t$:分解 $\kappa$ 决定 $g_t$(从而决定哪些 $\tau_t$ 是可恢复的),而引导 $(\lambda, \psi)$ 通过 $\mathbb{Q}_{t,\lambda_t}$ 塑造 $\tau_t$ 的分布。 ### 3.4 保留差距:引导帮助还是阻碍 关键的理论见解是引导的效果可以局部诊断。在给定的前缀 $K_{t-1}$ 和子目标 $g_t$ 下,定义基础对数几率: $$\omega_t^0(K_{t-1}) := \log \frac{\mathbb{Q}_{t,0}(B_t \mid K_{t-1}, g_t)}{1 - \mathbb{Q}_{t,0}(B_t \mid K_{t-1}, g_t)},$$ 捕获没有引导时的基线可恢复性对数几率。我们还定义*保留差距*: $$\Gamma_{t,\lambda_t}(K_{t-1}) := \log \frac{\mathbb{E}_{Q_{t,\lambda_t}}[W_{t,\lambda_t} \mid B_t]}{\mathbb{E}_{Q_{t,\lambda_t}}[W_{t,\lambda_t} \mid \neg B_t]},$$ 它衡量引导在可恢复与不可恢复轨迹上的相对权重。定理 1 表明,在对数几率空间中,可恢复性概率分解为一个可加结构: $$\logit\, \mathbb{Q}_{t,\lambda_t}(B_t \mid K_{t-1}, g_t) = \omega_t^0(K_{t-1}) + \Gamma_{t,\lambda_t}(K_{t-1}).$$ 因此引导帮助当且仅当 $\Gamma_{t,\lambda_t}(K_{t-1}) > 0$,损害当且仅当 $\Gamma_{t,\lambda_t}(K_{t-1}) < 0$。该定理将多维设计选择——偏重哪些轨迹以及多强——简化为每个前缀处的一维诊断。无引导的对数几率 $\omega_t^0(K_{t-1})$ 是代理和前缀的属性,一旦两者指定即固定。引导仅通过 $\Gamma_{t,\lambda_t}$ 进入可恢复性概率,在对数几率空间中是加性的。更强的引导(形式化为更大的 $\lambda_t$)缩放 $\Gamma_{t,\lambda_t}$ 的幅度但不改变其符号,因此增加 $\lambda_t$ 放大 $\psi$ 在 $K_{t-1}$ 处已产生的任何效应:有益的引导变得更有益,错位的引导变得更有害。这种符号放大结构解释了为何相同的引导可能减少或放大幻觉。在证据有限的设置中,可恢复的轨迹是那些停留在当前观察所证明范围内的轨迹。一个奖励证据检查或不确定性意识的引导规则 $\psi$ 将权重赋予有根据的轨迹,产生正的保留差距;提高 $\lambda_t$ 则抑制无根据的延续并减少幻觉。一个奖励细节、自信或指令遵从但不以证据为条件的引导规则 $\psi$ 将权重赋予那些无论是否保持依据都满足 $\psi$ 的轨迹,产生负
相似文章
停止在不公开执行框架的情况下比较LLM智能体
这篇立场论文认为,在长期跨度的LLM智能体任务中,执行框架(即围绕语言模型的上下文构建、工具交互、编排和验证的基础设施层)往往比模型本身更能决定性能,而当前的基准测试错误地将框架层面的提升归因于模型改进。它提出了一种框架感知的评估框架,包含披露标准和方差分解协议。
HarnessForge: 联合执行框架与策略演化用于自适应智能体系统
HarnessForge 提出一种用于演化LLM智能体系统的元自适应框架,通过联合优化执行框架与推理策略,在五个基准测试上对Qwen3骨干模型实现持续改进。
审计智能体执行框架安全性
本文提出HarnessAudit,一个用于审计LLM智能体执行轨迹(而非仅最终输出)的框架,重点关注边界合规性、执行保真度和系统稳定性。同时引入HarnessAudit-Bench,包含八个领域210个任务,评估了十种执行框架配置,发现任务完成与安全执行不一致,且违规行为随轨迹长度积累。
不是能力问题:LLM智能体层级间的控制敏感度是非单调的
本文通过实证测试了“更结构化的控制(harness)能普遍提高LLM智能体可靠性”这一常见假设,发现不同模型层级间存在非单调关系。它引入了HEAT-24基准,并揭示了严格的控制可能会损害前沿聊天模型,但有利于推理模型。
面向长时应用开发的Harness设计
Anthropic工程师详细介绍了一种多智能体Harness设计,利用生成器与评估器智能体提升Claude在长时间内自主构建完整、高质量前端应用的能力。