从历史到状态:面向 LLM 智能体的恒定上下文技能学习

arXiv cs.AI 论文

摘要

本文介绍了“恒定上下文技能学习”,这是一种将程序性知识从提示词迁移到模型权重中的框架,旨在降低 LLM 智能体的 Token 使用量并提升隐私性。该方法在 ALFWorld 和 WebShop 等基准测试中表现出色,同时显著降低了推理成本。

arXiv:2605.05413v1 公告类型:新论文 摘要:大型语言模型(LLM)智能体正越来越多地用于操作浏览器、文件、代码和工具,这使得个人助手成为自然的部署目标。然而,个人智能体面临着隐私-成本-能力的困境:云端模型虽然能很好地执行多步骤工作流,但会将敏感的中间上下文暴露给外部 API,而本地模型虽然保护了隐私,但可靠性较低。在这两种设置中,系统都需要为冗长的技能提示词和不断增长的历史记录反复付费。我们提出了恒定上下文技能学习,这是一种面向重复性智能体工作流的上下文到权重的框架:可复用的流程被学习存储在轻量级的任务族模块中,而推理仅依赖于当前观察结果和一个紧凑的状态块。一个确定性的追踪器根据任务进度生成该状态块并提供对齐的子目标奖励,因此每个模块可以通过步骤级别的监督微调(SFT)进行训练,并通过在线强化学习(RL)进行优化。在 ALFWorld、WebShop 和 SciWorld 上,我们的智能体在 Qwen3-4B、Qwen3-8B 和 Llama-3.1-8B 上均取得了强劲的性能表现。使用 Qwen3-8B 时,SFT+RL 在 ALFWorld 上达到了 89.6% 的未见样本成功率,在 WebShop 上达到了 76.8% 的成功率,在 SciWorld 上达到了 66.4% 的未见样本成功率。它们在匹配或超越现有强大的已发布智能体训练结果的同时,相较于受控的 ReAct 提示词基线,将每轮的提示词 Token 数量减少了 2 到 7 倍,这表明程序性上下文可以从提示词转移到权重中。
查看原文
查看缓存全文

缓存时间: 2026/05/08 08:16

# 从历史到状态:大语言模型智能体的恒定上下文技能学习
来源:https://arxiv.org/html/2605.05413
Haoyang Xie, Xinyuan Wang, Yancheng Wang, Puda Zhao, Feng Ju

亚利桑那州立大学计算与增强智能学院 \{hxie40, xwang735, ywan1053, pzhao34, fengju\}@asu\.edu

###### 摘要

大型语言模型(LLM)智能体正被越来越多地用于操作浏览器、文件、代码和工具,这使得个人助手成为其天然的部署目标。然而,个人智能体面临着隐私、成本与能力之间的张力:云端模型能够很好地执行多步工作流,但会将敏感的中间上下文暴露给外部 API;而本地模型虽然能保护隐私,但在可靠性上仍有不足。在这两种设置下,长技能提示和不断累积的历史记录都导致了重复的开销。我们提出了“恒定上下文技能学习”(constant-context skill learning),这是一种面向重复性智能体工作流的“上下文到权重”框架:可复用的流程被学习进轻量级的任务族模块中,而推理时仅依赖于当前观测和一个紧凑的状态块。一个确定性的追踪器根据任务进度生成该状态块,并提供对齐的子目标奖励,因此每个模块可以通过步级监督微调(SFT)进行训练,并通过在线强化学习(RL)进行优化。在 ALFWorld、WebShop 和 SciWorld 上,我们的智能体在 Qwen3-4B、Qwen3-8B 和 Llama-3.1-8B 上均取得了强劲的性能。使用 Qwen3-8B 时,SFT+RL 在 ALFWorld 上达到了 89.6% 的未见成功率,在 WebShop 上达到了 76.8% 的成功率,在 SciWorld 上达到了 66.4% 的未见成功率。它们在匹敌或超越现有的强大智能体训练结果的同时,相较于受控的 ReAct 提示基线,每轮提示令牌数量减少了 2–7 倍,表明程序性上下文可以从提示迁移至权重中。

## 1 引言

大型语言模型(LLM)智能体正从对话助手演变为能够在浏览器、文件、代码、图形用户界面(GUI)及其他工具上执行真实多轮任务的系统\[12 (https://arxiv.org/html/2605.05413#bib.bib36),39 (https://arxiv.org/html/2605.05413#bib.bib3),40 (https://arxiv.org/html/2605.05413#bib.bib4),25 (https://arxiv.org/html/2605.05413#bib.bib53),24 (https://arxiv.org/html/2605.05413#bib.bib54),38 (https://arxiv.org/html/2605.05413#bib.bib5)\]\。随着智能体具备了操作工具和文件的能力,将其部署为个人助手便成为了一个自然的下一步。诸如 OpenClaw 这样的系统展示了这一方向,其中智能体在正常使用过程中与个人设备、本地工具及用户反馈进行交互\[23 (https://arxiv.org/html/2605.05413#bib.bib22)\]\。这种本地化且针对特定用户的部署使得隐私和成本成为首要关注点。目前,最强的智能体模型通常通过外部 API 访问\[22 (https://arxiv.org/html/2605.05413#bib.bib23),2 (https://arxiv.org/html/2605.05413#bib.bib24)\],而能够本地运行的模型在长周期交互任务上的可靠性通常较低\[33 (https://arxiv.org/html/2605.05413#bib.bib25)\]\。因此,个人智能体面临着一个令人不适的权衡。云端模型提供了更强的执行能力,但个人智能体可能会处理电子邮件、日历、代码、文档和工具输出等敏感数据,将所有中间状态发送至外部服务是不可取的。与此同时,当每一步都必须处理长技能描述和累积的执行历史时,日常使用中的令牌成本会迅速增长。

当前的方法仍将智能体行为主要视为一个上下文管理问题。ReAct 风格的智能体通过在提示中重播先前的动作、观测和推理轨迹来保留任务进度\[40 (https://arxiv.org/html/2605.05413#bib.bib4)\]\。记忆增强型智能体通过存储、组织或检索过去的交互来减轻这一负担\[44 (https://arxiv.org/html/2605.05413#bib.bib33),37 (https://arxiv.org/html/2605.05413#bib.bib8),30 (https://arxiv.org/html/2605.05413#bib.bib9),3 (https://arxiv.org/html/2605.05413#bib.bib10)\]\。最近的智能体训练方法通过专家轨迹、自我生成的经验或多轮偏好及强化学习目标来改进策略\[27 (https://arxiv.org/html/2605.05413#bib.bib11),5 (https://arxiv.org/html/2605.05413#bib.bib13),31 (https://arxiv.org/html/2605.05413#bib.bib28),4 (https://arxiv.org/html/2605.05413#bib.bib27),42 (https://arxiv.org/html/2605.05413#bib.bib26),19 (https://arxiv.org/html/2605.05413#bib.bib1)\]\。这些方向显著改善了长周期行为,但它们 largely 保留了相同的推理时接口:在每次行动之前,智能体仍然会被提示任务指令、技能描述、检索到的记忆、示范或累积的历史记录。对于重复性的个人工作流而言,这是低效的,智能体反复重读已经练习过的流程,而不是将这些经验作为策略的一部分加以利用。

重复性的工作流不应要求智能体在每次执行时都重读相同的流程、指令和示例。在个人场景中,随着用户重复相同的工作流,成功的执行记录会自然积累,即使数十条专家轨迹也能为监督提供大量的状态-动作决策。这使得任务族成为一个自然的学习单元。我们将具有相同工具环境、动作空间和程序性子目标的不同技能变体归为一组,而不是将重复的执行视为孤立的事件。在这一层面进行学习,鼓励模块捕捉变体间共享的流程,而不是重播训练轨迹中的固定动作序列。提示中只需包含随步骤变化的信息,包括当前观测和一个描述进度、相关实体及剩余子目标的紧凑状态块。因此,推理过程更短且定义明确。智能体无需重读长技能描述或重播的历史记录,但仍拥有足够的状态来选择下一步动作。我们保持基础模型固定,为每个任务族学习一个独立的轻量级技能模块,首先从专家示范中学习,然后通过交互进行优化。添加新的工作流仅需训练一个新模块。在推理时,运行工作流会加载其对应的模块,保持计算量适中,并避免在不相关技能之间发生灾难性遗忘。

我们的解决方案:我们将这一理念实例化为一个“上下文到权重”的训练管道。对于每个任务族,我们通过步级监督微调(SFT)训练一个轻量级技能模块,然后通过基于交互的强化学习(RL)对其进行优化。一个确定性的任务追踪器提供了原始交互与学习之间的接口。它将与控制相关的进度总结为紧凑的状态块,例如已获取的对象、已完成的子目标和剩余要求,并在 RL 期间提供塑形后的子目标奖励。该追踪器是一个确定性算法,而非 LLM 推理器。它通过简单的环境特定规则将观测和动作转换为任务进度。在推理时,智能体加载相应的模块,并基于当前观测和状态块进行条件判断,而不是基于完整的执行历史或长技能提示。我们在 ALFWorld、WebShop 和 SciWorld\[29 (https://arxiv.org/html/2605.05413#bib.bib20),39 (https://arxiv.org/html/2605.05413#bib.bib3),35 (https://arxiv.org/html/2605.05413#bib.bib21)\] 上评估了这一设计,这些基准提供了类似于个人智能体使用案例的代表性重复工作流,包括家庭物品操作、网页交互和程序化工具使用。

我们的实验表明,这种“上下文到权重”的设计既提高了任务性能,又提高了上下文效率。使用 Qwen3-8B 时,SFT+RL 在 ALFWorld 的可见/未见任务上达到了 83.6% / 89.6% 的成功率,在 WebShop 上达到了 76.8% 的成功率,在 SciWorld 的可见/未见任务上达到了 62.9% / 66.4% 的成功率。同时,它显著减少了推理上下文。与全历史 ReAct 相比,我们的方法将 ALFWorld 上每轮提示令牌从 1.3k 减少到 0.18k,WebShop 上从 3.1k 减少到 0.49k,SciWorld 上从约 2.0k 减少到 0.49k。它还减少了每集的总令牌量,在 ALFWorld 上从 34k 减少到约 3k,在 WebShop 上从 47k 减少到 3.4k,在 SciWorld 上从 42k 减少到 18k。基于这些发现,我们将主要贡献总结如下:

- •我们将重复性的个人智能体工作流表述为*恒定上下文技能学习*,其中可复用的流程从提示和不断增长的历史记录移动到轻量级技能模块的权重中,而步骤特定的进度则明确保留在紧凑的状态块中。
- •我们引入了一种模块化的 SFT+RL 训练管道,从专家轨迹中学习轻量级技能模块并通过交互进行优化,将确定性状态块构建与对齐于同一追踪器字段的子目标奖励相结合。
- •我们使用 Qwen 和 Llama 主干在 ALFWorld、WebShop 和 SciWorld 上进行了受控评估、消融实验和上下文效率分析,表明有界上下文技能模块可以匹敌强大的智能体训练基线,同时相较于 ReAct 基线,提示令牌成本降低了 2–7 倍。

## 2 问题设置

任务族。我们研究组织为任务族的重复性智能体工作流。任务族 $k$ 是一组共享工具环境、动作空间和程序结构的集变体,但在集特定的目标、对象、约束或初始状态上有所不同。在个人智能体使用中,此类任务族源于重复的工作流,例如通过相同界面订购物品、使用相同工具链组织文件,或运行相同分析程序的变体。在基准测试中,它们对应于预定义的任务族,如 ALFWorld 物体操作、WebShop 购物和 SciWorld 科学实验任务。这是一个自然的学习单元,因为变体共享可复用的流程,但仍需要集特定的决策。在集开始时,智能体接收到指令 $g \sim \mathcal{G}_k$。在步骤 $t$,它观测到 $o_t$,产生文本动作 $a_t$,并继续直到终止,产生轨迹 $\tau=(g,o_1,a_1,...,o_T,a_T)$。对于每个任务族,我们假设有一组适度的成功执行记录 $\mathcal{T}_k$,来自用户示范或先前成功的智能体运行。

标准基于历史的表述。大多数基于提示的智能体通过将更多信息放入上下文中来维持任务进度。令 $d_k$ 表示任务族上下文,如技能指令、示范、检索到的记忆或示例,并令 $h_t=(o_1,a_1,...,o_t)$ 为执行历史。标准的基于历史的智能体从 $c_t^{\mathrm{hist}}=\mathrm{Format}(g,d_k,h_t)$ 预测动作。这一表述涵盖了 ReAct 风格的提示、检索记忆智能体和技能提示智能体:它们在组装 $d_k$ 或 $h_t$ 的方式上有所不同,但下一个动作仍然是从一个包含可复用流程和累积交互状态的文本上下文中生成的。其长度缩放为

$\|c_t^{\mathrm{hist}}\| \approx \|g\| + \|d_k\| + \sum_{i=1}^{t}(\|o_i\| + \|a_i\|)$,(1)

这对重复性工作流来说是低效的。$d_k$ 在每一步都被重新处理,而历史项随着集长度的增加而增长,使得相关状态难以可靠使用\[16 (https://arxiv.org/html/2605.05413#bib.bib7)\]\。

有界上下文技能学习。相反,我们寻求一种输入在集增长时保持有界的任务族策略。对于每个任务族 $k$,我们保持一个冻结的基础模型 $\theta_0$ 并学习一个轻量级技能模块 $\phi_k$。在步骤 $t$,模型基于 $x_t=\mathrm{Format}(g,o_t,q_t,b_t)$ 进行条件判断,其中 $q_t=(o_{t-1},a_{t-1})$ 是一步上下文,$b_t$ 是一个紧凑的状态块。状态块包含进度信息,如当前子目标、选定的实体、获取的对象、选择的选项、检查的位置或剩余要求。期望的策略为

$a_t \sim \pi_{\theta_0,\phi_k}(\cdot \mid x_t), \quad \|x_t\| \leq B_k \quad \forall t,$(2)

其中 $B_k$ 不随轨迹长度缩放。因此,$\phi_k$ 代表可复用的流程,而 $x_t$ 仅携带步骤特定的状态。这一有界上下文目标创造了一个状态挑战:智能体必须避免携带完整的历史,但也绝不能简单地丢弃全部历史。仅凭当前观测可能会遗漏重要的进度信息,如选定的实体或已完成的子目标,且不同任务需要不同的过去状态片段。我们使用 $b_t$ 表示应携带此信息的紧凑状态块。其作用不是重述整个轨迹或提供解决方案计划,而是暴露做出下一步决策所需的最小状态变量。

## 3 上下文到权重技能学习

鉴于第 2 节中的有界上下文表述,我们现在将其实例化为一个具体的上下文到权重训练管道。该管道包含三个阶段(图 1)。首先,确定性任务追踪器将相关的交互状态压缩为紧凑的状态块。其次,成功的执行被转换为步级监督,用于训练任务族技能模块。第三,该模块通过使用源自相同子目标结构的奖励,通过交互进行优化。在整个训练和推理过程中,基础模型 $\theta_0$ 保持冻结,仅更新任务族模块 $\phi_k$。

参见图注
图 1:上下文到权重技能学习管道

### 3.1 从历史到状态块

状态块的目的是在不过度向模型传递完整执行历史的情况下,保留与决策相关的进度。对于每个任务族 $k$,我们定义一个确定性追踪器 $\mathcal{M}_k$ 来维护结构化状态 $m_t$。从任务指令 $g$ 初始化,$m_t$ 存储可从状态块渲染的变量,包括任务目标、获取或选定的实体、检查的位置、完成的子目标以及其他族特定的进度指示器。在一个任务族内,一个集通过程序性阶段或子目标推进,如搜索、操作、选择或放置。追踪器将当前阶段记录为 $m_t$ 的一部分。在步骤 $t$,追踪器更新其状态为 $m_t=\mathrm{Update}_k(m_{t-1},a_{t-1},o_t)$ 并渲染面向模型的状态块为 $b_t=\mathrm{Render}_k(m_t)$。算法 1 给出了通用的更新与渲染接口。

追踪器是确定性的,而非 LLM 摘要器,因此其输出是可复现的,且不需要额外的模型调用。它使用轻量级解析规则更新任务族变量,使状态构建成本低廉。渲染后的块仅记录下一次决策所需的状态事实,而不是轨迹摘要或完整解决方案计划。

追踪的变量取决于任务家族及其阶段。在 ALFWorld 中,状态块记录目标对象、智能体是否持有该对象、目标容器以及已检查位置等字段。在 WebShop 中,它追踪当前查询、检查的产品、选择的选项、剩余操作...

相似文章

重新思考自进化大语言模型智能体的持续经验内化

arXiv cs.CL

本文研究了大语言模型智能体在多轮迭代经验内化过程中出现能力渐进式崩溃的原因,并提出了一套从经验粒度、注入模式和训练机制三个维度出发的鲁棒解决方案。主要发现包括:原则级经验、逐步注入方式以及离策略上下文蒸馏能够带来更稳定、更可持续的持续学习效果。

学习,快与慢:走向持续适应的LLMs

Hugging Face Daily Papers

一种针对LLMs的快慢学习框架,将固定的慢权重与优化的快上下文权重相结合,在持续学习场景中实现了高达3倍的样本效率提升,并减少了灾难性遗忘。