从动作引导中学习智能体策略

arXiv cs.CL 论文

摘要

本文提出了 ActGuide-RL,这是一种利用人类动作数据作为指导来训练大语言模型(LLM)智能体策略的方法,旨在无需大量监督微调的情况下克服强化学习中的探索障碍。

arXiv:2605.12004v1 公告类型:新发布 摘要:大语言模型(LLM)的智能体强化学习(RL)严重依赖基础策略的探索能力,因为训练信号仅在其能力不足的区域产生。对于基础策略无法到达奖励状态的任务,需要额外的训练或外部指导以恢复有效的学习信号。我们并未依赖成本高昂的迭代式监督微调(SFT),而是利用了日常人类互动中产生的丰富动作数据。我们提出了 ActGuide-RL,它将动作数据作为计划式参考指导注入,使智能体策略能够克服到达奖励状态的可达性障碍。随后,通过混合策略训练联合优化有引导和无引导的 rollout,将探索收益内化回无引导策略中。受关于收益-风险权衡的理论及实证分析的启发,我们采用最小干预原则,仅在作为自适应后备方案时调用指导,既匹配任务难度又最小化离策略风险。在搜索智能体基准测试中,ActGuide-RL 相较于零强化学习取得了显著改进(在使用 Qwen3-4B 时,GAIA 提升 10.7 个百分点,XBench 提升 19 个百分点),且无需冷启动即可达到与 SFT+RL 流水线相当的性能。这表明了一种新的智能体 RL 范式,通过可扩展的动作指导减少了对大量 SFT 数据的依赖。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/13 06:20

# 从动作引导中学习代理策略
来源: https://arxiv.org/html/2605.12004 Yuxiang Ji1,2 Zengbin Wang2 1^1 Yong Wang2^† Shidong Yang2 Ziyu Ma2 Guanhua Chen3 Zonghua Sun1 Liaoni Wu1 Xiangxiang Chu2
1厦门大学 2高德地图,阿里巴巴集团 3南方科技大学

###### 摘要

大型语言模型(LLM)的代理强化学习(RL)严重依赖于基础策略的探索能力,因为训练信号仅出现在其能力不足的区域。对于那些基础策略无法到达奖励状态的任务,需要额外的训练或外部引导来恢复有效的学习信号。与其依赖昂贵的迭代式监督微调(SFT),我们利用日常人类交互中产生的丰富动作数据。我们提出了 **ActGuide-RL**,它将动作数据作为计划式参考引导注入,使代理策略能够克服到达奖励状态的可达性障碍。随后,通过混合策略训练联合优化有引导和无引导的 rollout(轨迹 rollout),将探索收益内化回无引导策略中。受理论分析和实证分析中关于收益-风险权衡的启发,我们采用了最小干预原则,仅在适应任务难度时自适应地调用引导作为后备方案,同时将离策略(off-policy)风险降至最低。在搜索代理基准测试中,**ActGuide-RL** 显著优于零强化学习(在 Qwen3-4B 上 GAIA 提高 +10.7 个百分点,XBench 提高 +19 个百分点),且在无需冷启动的情况下表现与 SFT+RL 流水线相当。这表明了一种新的代理强化学习范式,即通过可扩展的动作引导来减少对繁重 SFT 数据的依赖。

> **图 1 说明**: 代理强化学习通常局限于基础策略的能力范围内(in-capability region),并在超出这一探索前沿的任务上停滞不前。**ActGuide-RL** 利用多样化且可扩展的 **动作数据** 作为计划式参考,引导模型在超出能力范围的任务中进行有效的状态访问。

## 1 引言

大型语言模型(LLMs)的角色已从简单的聊天机器人转变为能够独立解决复杂任务的代理[^70, ^69, ^36, ^62, ^38]。通过有针对性的代理训练,最近的顶尖模型能够自主规划并完成各种复杂的任务[^43, ^1, ^52]。这种能力已在通用工具使用[^2, ^13, ^25]、图形用户界面(GUI)[^65, ^45, ^81] 以及命令行界面(CLI)[^27] 等设置中得到证实,包括现实世界中的真实场景[^60, ^12]。

此类针对性训练背后的一个关键因素是代理强化学习(RL),其中基于 LLM 的策略通过与特定或多样化环境的重复交互,朝着可验证或启发式的奖励进行优化[^77, ^61, ^24]。与静态的监督训练不同,在线 RL 对任务难度非常敏感,因为训练信号仅来自模型自身的探索。如图 1 所示,我们将基础策略可达能力范围内的任务称为“区域内(in-region)”,而超出此边界的任务称为“区域外(out-region)”。当奖励状态落入区域外时,基于组的优势估计会坍缩为零梯度,导致训练停滞。因此,一种普遍的观点认为,当前的基于 RL 的方法从根本上受限于基础模型的能力[^75, ^64, ^9, ^22]。

为了解决 RL 在困难或未见任务上的冷启动问题,典型的实践是执行相应的监督微调(SFT),然后进行动态难度调整或课程学习。然而,这种流水线将负担转移到了预热数据的设计和仔细的课程设计上。这种依赖性使得代理 RL 变得复杂,难以扩展到新环境中。

回到开发代理能力的原始动机,目标是超越推理,使模型能够以类人的方式行动、交互和决策,以完成长期任务。从这个角度来看,一个直接但目前未被充分利用的训练来源是在开放世界设置或任务构建过程中产生的丰富 **动作数据**。如图 1 所示,示例包括与计算机或手机的逐步 GUI/CLI 交互、通过 API 介导的任务执行以及长期游戏玩法。此外,一些代理 RL 任务是通过反向过程构建的[^29, ^14, ^27],即首先构建有效的动作轨迹,然后用于实例化任务,使得正确动作自然可用。这些动作数据天生具有多样性且规模庞大,但由于缺乏明确的推理轨迹,其直接用于模型训练往往受到限制。现有方法要么通过合成思维链(chain-of-thought)增强此类数据[^16, ^68],要么通过行为模仿直接利用它[^10, ^3]。然而,合成的推理可能会受到事后合理化的影响[^56],而行为模仿往往拟合表面动作模式,而非诱导代理策略的推理能力。

在本工作中,我们研究如何利用动作数据来增强代理 RL。通过实证分析,我们首先描述了代理策略的能力障碍,其中奖励状态落在当前可达区域之外,训练信号变得不可用。为了解决这个问题,我们提出了 **ActGuide-RL**,它注入动作数据作为计划式参考引导,帮助策略跨越此类障碍并执行有效的区域外状态访问。我们进一步分析了引导引入的收益-风险权衡,其中更强的引导改善了探索,但也增加了离策略分布偏移。基于此,我们从实验中得出两个主要结论:

*   **C1**: 当动作引导作为零奖励后备并自适应地最小化时,其效果最佳,遵循最小干预原则。
*   **C2**: 在这种最小干预下,有引导的 rollout 可以通过混合策略优化范式直接内化到无引导模型中。

我们在不同的基础模型、任务难度级别以及域内和域外设置下的搜索代理基准上评估了 **ActGuide-RL**。与零 RL 相比,**ActGuide-RL** 一致地改善了所有测试的基础模型,特别是在无引导 RL 难以获得有效训练信号的更硬基准上增益尤为显著。具体而言,基于 Qwen3-4B-Instruct,**ActGuide-RL** 在 GAIA 上比零 RL 提高了 +10.68 个百分点,在 WebWalkerQA 上提高了 +27.79 个百分点,在 XBench 上提高了 +19.00 个百分点,在 BC-ZH 上提高了 +5.15 个百分点。值得注意的是,即使没有任何冷启动初始化,其表现也与 SFT+RL 流水线相当。这大大减轻了对 SFT 的依赖,并为代理后训练提供了新的视角。

## 2 方法

### 2.1 预备知识:代理 RL

我们遵循现有工作,将代理 RL 公式化为部分可观察马尔可夫决策过程(POMDP),其中语言模型充当策略 $\pi_\theta$。给定一个任务实例 $x \sim \mathcal{D}$,策略在每个步骤 $t$ 接收交互历史作为其状态 $s_t$,并预测下一步 $\alpha_t \sim \pi_\theta(\cdot \mid s_t)$。完整的 rollout 产生一个轨迹 $\tau$,其二元结果奖励 $Y(\tau) \in \{0,1\}$ 表示任务是否成功解决。总体训练目标是最大化预期奖励:

$$
\max_{\theta} \mathcal{J}(\theta) := \mathbb{E}_{x \sim \mathcal{D}} \mathbb{E}_{\tau \sim \pi_{\theta}(\cdot \mid x)} \left[ Y(\tau) \right]. \quad (1)
$$

由于 $Y(\tau)$ 是二元的,这自然等价于最大化在可能包含 *不同难度* 任务的任务分布上的预期成功率。

> **图 2 说明**: **ActGuide-RL** 框架概览。传统的代理 RL 只能在基础模型能力范围内获得训练信号。**ActGuide-RL** 遵循最小干预原则,动态引入动作数据以引导模型进行区域外探索。这些混合 rollout 通过混合策略优化进行训练。

### 2.2 代理 RL 中的可达性障碍

为了优化上述目标,最近的 RL 算法[^7, ^49, ^74] 通常为每个任务采样一组 $N$ 个 rollout 轨迹 $\{\tau_i\}_{i=1}^N$,并根据成功和失败之间的对比计算优势。这种机制在奖励状态位于能力范围内时效果良好。然而,当奖励状态落入区域外且变得不可达时,则无法获得学习信号。我们通过 *可达性动态(reachability dynamics)* 的概念正式化这一现象。

###### 定义 2.1(可达性动态)

设 $\Psi(s) := \sup_{\pi} \mathbb{P}_{\pi}(Y=1 \mid s)$ 表示从状态 $s$ 的任何后续策略可实现的成功概率的上确界。我们定义有效状态访问质量 $M_t^\pi := \mathbb{E}_{\pi}[\Psi(s_t)]$,$(2)$

它衡量由策略 $\pi$ 引发的 rollout 中平均剩余成功潜力。比率 $\bar{\kappa}_t^\pi := M_{t+1}^\pi / M_t^\pi$ 量化了一步可达性保留率。通过伸缩法,任何区间 $[u, v)$ 上的质量满足乘法递归:

$$
M_v^\pi = M_u^\pi \prod_{t=u}^{v-1} \bar{\kappa}_t^\pi. \quad (3)
$$

可达性障碍使得在步骤 $b+m$ 之后的 rollout 获得 $Y(\tau)=0$,导致基于组的优势坍缩为零梯度。**这将模型限制在区域内训练,并防止在区域外任务上进行学习。** 与采样不足不同,这种失败是结构性的,因此增加 $N$ 无济于事。策略本身必须首先被引导跨越关键区间,这动机了我们的方法。

### 2.3 从障碍到引导:**ActGuide-RL** 框架

为了解决代理 RL 中的根本性障碍,我们提出了 **ActGuide-RL** 以使用动作作为引导,如图 2 所示。**ActGuide-RL** 由三个核心问题以及两个实证发现驱动:动作数据是否可以修复可达性障碍(§2.3.1,发现 1)、注入多少引导(§2.3.2,发现 2)以及如何从有引导样本中进行优化(§2.3.3)。

#### 2.3.1 如何引导:动作数据修复障碍

为了探索仅动作数据是否可以修复可达性障碍,我们将动作轨迹视为参考计划 $g=(\tilde{\alpha}_1, \dots, \tilde{\alpha}_L)$ 并将策略条件化为 $\pi_\theta(\cdot \mid s, g)$。然后我们比较有引导和无引导行为沿有引导 rollout 的表现。具体而言,我们测量:

$$
\underbrace{\|\Delta\mathrm{Logit}\| = \left\| \mathrm{logit}_{\pi_{\theta}}(\cdot \mid s_t, g) - \mathrm{logit}_{\pi_{\theta}}(\cdot \mid s_t) \right\|}_{\text{token-level guidance influence}}, \quad \underbrace{\mathrm{Pass@K} = \mathbb{P}_{\tau_{1:K} \sim \pi_{\theta}(\cdot \mid s_t)} \left[ \max_{i \leq K} Y(\tau_i) = 1 \right]}_{\text{prefix-level reachability}} \quad (5)
$$

其中 $\|\Delta\mathrm{Logit}\|$ 计算有引导策略 $\pi_\theta(\cdot \mid s, g)$ 和无引导策略 $\pi_\theta(\cdot \mid s)$ 之间的 token logits 差异,捕捉引导在局部改变策略的程度。前缀级别的 $\mathrm{Pass@K}$ 则从当前有引导状态 $s_t$ 采样无引导延续,并测量它们是否能恢复奖励,反映该状态后的剩余可达性。

> **图 3 说明**: 动作引导修复了有引导 rollout 中的可达性障碍。蓝色条形显示 $\|\Delta\mathrm{Logit}\|$,红色曲线显示前缀级别 Pass@K ($K=32$)。障碍出现在无引导 Pass@K 坍缩且引导引起的 logit 偏移激增的地方。

**发现 1:动作引导修复可达性障碍。** 如图 3 所示,简单任务^3 从早期有引导状态开始即显示非零 Pass@K,而更难的任务^4 直到有引导轨迹跨越障碍后才保持零无引导 Pass@K。在这些障碍区间内,$\|\Delta\mathrm{Logit}\|$ 急剧飙升,表明动作轨迹在策略失败的地方正好与当前策略分道扬镳。跨越障碍后,无引导 Pass@K 恢复到非平凡水平,表明动作引导将策略带到可达的奖励状态,而不仅仅是替换其决策。

受发现 1 的启发,我们正式利用动作数据 $(g)$ 作为有效的引导信号,并将其简单地附加到任务提示中作为未来参考动作列表(附录 8)。这提供了一个非侵入性的参考计划,而不是强迫模型将动作生成为固定前缀。此外,认识到不同的障碍可能需要不同量的引导才能跨越,我们将引导组织成一个有序族 $g_0 = \varnothing \prec g_1 \prec \dots \prec g_K$,$(6)$ 其中 $g_k = (\tilde{\alpha}_1, \dots, \tilde{\alpha}_k)$。

相似文章

AHD Agent:用于自动启发式设计的代理强化学习

arXiv cs.AI

本文介绍了 AHD Agent,这是一个利用代理强化学习(Agentic Reinforcement Learning)的框架,使大型语言模型(LLMs)能够通过动态交互求解环境,自主地为组合优化问题设计启发式方法。

多智能体系统中的策略表示学习

OpenAI Blog

OpenAI 研究人员提出了一个通用框架,用于在多智能体系统中使用最少的交互数据学习智能体策略的表示,将该问题视为表示学习,并应用于竞争控制和合作通信环境。

StraTA:通过策略轨迹抽象激励智能体强化学习

Hugging Face Daily Papers

StraTA 提出了面向长期任务 LLM 智能体的策略轨迹抽象方法,通过分层 GRPO 风格的 rollout、多样化策略采样和批判性自判断机制,在样本效率和最终性能上超越了前沿模型和先前 RL 基线。

面向长视界语言智能体的里程碑引导策略学习

arXiv cs.CL

本文介绍了 BEACON,这是一种旨在改善长视界语言智能体的信用分配和采样效率的里程碑引导策略学习框架。在 ALFWorld、WebShop 和 ScienceWorld 等基准测试上,该框架表现出显著优于 GRPO 和 GiGPO 的性能提升。