智能体能否泛化到开放世界？揭示工具使用中静态训练的脆弱性

arXiv cs.AI 2026/07/02 04:00 论文

llm-agents tool-use generalization open-world fine-tuning reinforcement-learning icml

摘要

本文介绍了OpenAgent，这是一个针对开放世界场景中工具使用智能体在分布偏移下的问题设置，并提出了扰动增强微调（Perturbation-Augmented Fine-Tuning）来提高鲁棒性。实验表明，在环境变化下，SFT和RL智能体均会出现性能下降。

arXiv:2607.01084v1 公告类型：新摘要：尽管大语言模型（LLM）智能体在静态基准测试中表现熟练，但其在现实场景中的部署受到用户查询、工具集和交互动态的动态特性的阻碍。为了解决这一泛化差距，我们形式化了OpenAgent（开放世界中的工具使用智能体），这是一个以查询、动作、观察和领域维度上的分布偏移为特征的问题设置。为了系统诊断其影响，我们构建了一个受控沙箱环境，在其中定义了跨四个层级（感知、交互、推理和内化）的细粒度环境偏移，并进行了一系列全面的实验。我们的分析得出一系列关键见解，表明通过监督微调（SFT）和强化学习训练的智能体在面临开放环境变化时均会出现不同程度的性能下降。基于这些见解，我们提出了扰动增强微调（Perturbation-Augmented Fine-Tuning），这是一种基于干扰的SFT干预策略，为在现实环境中增强智能体的鲁棒性和实用性奠定了基础。我们的代码将在 https://github. com/LAMDA-NeSy/OpenAgent 发布。

查看原文

查看缓存全文

缓存时间: 2026/07/02 05:41

# 智能体能泛化到开放世界吗？揭示静态训练在工具使用中的脆弱性

来源：https://arxiv.org/html/2607.01084

###### 摘要

尽管大型语言模型（LLM）智能体在静态基准测试中表现出色，但其在现实场景中的部署却受到用户查询、工具集和交互动态不断变化的阻碍。为弥补这一泛化差距，我们正式定义了OpenAgent（开放世界中的工具使用智能体），这是一个以跨查询、动作、观察和领域维度分布偏移为特征的问题设定。为系统诊断其影响，我们构建了一个受控沙盒环境，在其中定义了跨四层层级（感知、交互、推理、内化）的细粒度环境偏移，并开展了一系列全面的实验。我们的分析得出了一系列关键见解，表明通过监督微调（SFT）和强化学习（RL）训练的智能体在面临开放环境偏移时，均会遭受不同程度的性能下降。基于这些见解，我们提出了扰动增强微调（PAFT），这是一种基于干扰的SFT干预策略，为在现实环境中增强智能体的鲁棒性和实用性奠定了基础。我们的代码将在以下地址发布：https://github.com/LAMDA-NeSy/OpenAgent。

机器学习，ICML

## 1 引言

工具学习与模型上下文协议（MCP）（Anthropic，2024）的融合，引发了大型语言模型（LLM）智能体的范式转变，使其能够导航外部环境以解决复杂的多步骤任务（Guo等，2024；Wang等，2024b；Qu等，2025）。通过监督微调（SFT）和强化学习（RL）优化后，近期开源模型（Hsieh等，2023；Qu等，2024；Qwen等，2024；Bai等，2025）已达到与GPT-4（Achiam等，2023）和Gemini（Team等，2023）等专有前沿模型相媲美的工具调用能力。如图1所示，在流行的静态世界假设下（工具、模式和交互逻辑的分布在训练和推理间保持一致）（Shen等，2023；Yin等，2025；He等，2025），SFT和RL范式均展现出稳定且持续的性能提升，最终收敛于近乎完美的成功率。然而，这种稳定性往往是当前基准测试封闭集特性的产物。现实世界的部署本质上是不稳定的：API被弃用、工具模式演变、用户指令时常模糊。当这些环境动态偏离训练先验时，在静态基准中观察到的表面掌握往往被证明是脆弱的。这一差异引出了一个基本研究问题：当前的训练范式能否使智能体泛化到开放世界？为严格解决这一问题，我们正式定义了OpenAgent（开放世界中的工具使用智能体），这是一个以跨四个维度（用户查询ΔQ、工具集ΔA、交互动态ΔO和任务领域ΔD）偏移为特征的问题设定。为将这些偏移的影响与现实世界API固有的不稳定性和瞬态噪声相隔离，我们建立了一个受控沙盒环境。该设置允许受控探测，使我们能够维护一个纯封闭集基线，同时系统地注入跨四层诊断框架（感知、交互、推理、内化）的开放世界扰动。我们的全面评估揭示了SFT和RL模型在开放世界设置下不同程度的泛化性与适应性，并进一步识别出各自的结构性弱点。我们发现，两种范式在开放环境中均遭受性能下降，尽管失败模式不同。SFT智能体倾向于轨迹过拟合和脆弱的符号锚定，而RL智能体尽管展现出更好的语义基础，但由于其奖励结构中的目的论偏差，仍易受边界盲点的影响。基于这些见解，我们引入了扰动增强微调（PAFT），这是一种以数据为中心的SFT干预策略。通过在训练轨迹中注入受控的观察异常和符号噪声，PAFT使模型摆脱浅层模式记忆，恢复在开放世界中的鲁棒泛化。总之，本研究的主要三重贡献如下：

- • 工具使用中开放环境的形式化：我们正式定义了OpenAgent设定，刻画了现实世界部署中固有的查询、工具集、交互动态和任务领域的偏移。
- • 开放环境中的系统评估：我们建立了一个受控沙盒环境，并开展了一系列全面实验，评估SFT和RL智能体在不同环境偏移水平下的鲁棒性。
- • 关键见解与方法：我们识别了当前范式中的关键失败模式，特别是SFT中的符号锚定和RL中的边界盲点，并提出了PAFT以有效缓解性能下降。

##### 冲突利益声明。作者声明不存在利益冲突。

## 2 相关工作

参见图1：SFT和RL智能体在封闭设置中的性能演变。两种方法在整个训练过程中均展现出稳定且持续的提升。

参见图2：OpenAgent设置中的挑战，包括查询、动作、观察和领域偏移。

参见图3：评估任务的架构图。我们将此评估任务架构图从浅到深划分为四个层次：感知、交互、推理、内化。

##### 智能体后训练范式

当前方法论分为三种方法。基于SFT的工作，如GenTool（He等，2025）、TOUCAN（Xu等，2025b）以及其他（Shi等，2024；He等，2025；Yuan等，2025；Lin等，2025；Mo等，2026），通过令牌预测标准化工具调用。相反，RL框架如ToolRL（Qian等，2025）、DeepEyes（Zheng等，2026）以及其他（Feng等，2025；Yu等，2025；Qian等，2025）利用奖励机制驱动鲁棒决策。混合范式包括ReTool（Feng等，2026）、DeepEyesV2（Hong等，2026）以及其他（Su等，2025；Li等，2026），将SFT初始化与RL探索相结合。遵循近期闭源先进模型如Deepseek-V3.2、GLM-4.5（Zeng等，2025）和Kimi K2（Team等，2025），我们选择全参数SFT和RL作为基线。

##### 智能体评估范式

智能体能力通过本地工具（Wang等，2024a；Guo等，2024；Huang等，2024；Ye等，2025）和远程协议（Li等，2023；Wang等，2024c；Gao等，2025；Wang等，2026）进行评估。现有基准测试主要优先考虑任务成功（Mialon等，2024；Liu等，2025；Patil等，2025；Shao等，2026），而鲁棒性研究聚焦于推理时扰动（Ye等，2024；Xiong等，2025）。近期，智能体基准测试进一步转向现实环境（Liu等，2024；Zhou等，2024；Drouin等，2024；Jimenez等，2024；Koh等，2024；Trivedi等，2024；Ma等，2024；Xie等，2024；Xu等，2025a）。与被动模型的开放环境学习（Guo等，2020；Li等，2021；Zhou，2022；Guo和Li，2022；Jia等，2024；Guo等，2025；Cheng等，2025）不同，OpenAgent研究多步骤中的偏移。尽管先前工作（Chu等，2025）展示了RL相对于SFT的优势，但缺乏工具使用上下文；我们通过分析开放环境偏移下的训练到测试迁移来填补这一空白。

## 3 预备知识

### 3.1 问题形式化

我们将智能体建模为一个序列决策过程 \(\mathcal{M} = \langle \mathcal{Q}, \mathcal{A}, \mathcal{O}, \pi \rangle\)，包含用户查询 \(\mathcal{Q}\)、工具空间 \(\mathcal{A}\) 和观察空间 \(\mathcal{O}\)。给定一个查询 \(q \in \mathcal{Q}\)，在每一步 \(t\)，智能体使用策略 \(\pi_\theta(a_t \mid h_t)\) 基于历史 \(h_t = (q, a_1, o_1, \dots, a_{t-1}, o_{t-1})\) 选择动作 \(a_t \in \mathcal{A}\)。环境返回观察 \(o_t \in \mathcal{O}\)，将历史更新为 \(h_{t+1} = (h_t, a_t, o_t)\)，直到任务完成。我们的核心挑战是当测试时分布偏离训练先验时模型的泛化能力。

### 3.2 OpenAgent设置：分布偏移

与被动模型中的分布偏移不同（每个输入被独立扰动），工具使用智能体面临沿智能体-环境循环的级联偏移。在步骤 \(t\) 的扰动可能改变观察 \(o_t\)，该观察进入历史 \(h_{t'}\) 并影响所有后续决策 \(\pi_\theta(a_{t'} \mid h_{t'})\) 对于 \(t' > t\)，导致错误沿轨迹累积。如图2所示，OpenAgent涵盖查询偏移（\(q \rightarrow q'\)）、动作空间偏移（包括现有工具被扰动和新引入工具）、观察偏移（如 None 或 Error）以及联合领域偏移（所有交互元素同时变化）。我们将此交互式偏移空间分解为四个维度。

**查询空间中的意图偏移（\(\Delta\mathcal{Q}\)）。** 意图分布 \(P(q)\) 在语义指令和语言表面形式上均发生偏移。与被动输入扰动不同，工具使用智能体中的查询误解会沿轨迹传播：初始的错误解析可能引发错位的工具链，其错误在后续步骤中累积。

**动作空间中的结构偏移（\(\Delta\mathcal{A}\)）。** 工具空间变得非平稳（\(\mathcal{A}_{\mathrm{test}} \neq \mathcal{A}_{\mathrm{train}}\)），涵盖多个层次的变化：表面漂移（重命名标识符但保留功能）、语义冲突（保留熟悉名称但改变文档行为）以及结构重配置（合并、拆分或反转工具依赖关系）。智能体必须区分装饰性更改与根本性重配置，并将动作基于当前工具语义进行定位。

**观察空间中的动态偏移（\(\Delta\mathcal{O}\)）。** 反馈通道变得非平稳：测试时的观察可能包含返回格式、错误状态、空值或在训练中缺失或罕见的纠正指令。与静态输出不同，这些观察直接更新智能体的信念状态并重塑后续动作空间。关键的是，智能体必须区分需要策略调整的信息性异常和需要任务拒绝的终止性失败——这一区别在被动设置中并不存在，因为每个输入仅需要预测。

**组合领域偏移（\(\Delta\mathcal{D}\)）。** 此偏移同时将 \(\mathcal{Q}\)、\(\mathcal{A}\) 和 \(\mathcal{O}\) 更改为一个新领域，同时保留潜在的解决问题结构 \(\mathcal{G}\)。尽管表面语义和接口不同，智能体必须通过在其节点和依赖关系在目标领域中进行重新接地来迁移底层推理拓扑，而不是依赖于领域特定的词汇或程序模式。

## 4 评估任务

### 4.1 实验设置

##### 受控沙盒环境。

我们利用一个合成沙盒环境来对智能体能力进行受控探测。与现实世界API引入不可控的瞬态噪声不同，沙盒使我们能够精确隔离环境变量，并建立一个纯封闭环境基线来衡量开放环境偏移。我们合成了多样化的工具使用任务集，聚焦于简单的地理POI查询和计算问题以测试推理边界，详细规格见附录A。

##### 数据集与协议。

数据集包含6,050个训练样本和880个评估样本。为确保严格评估，我们强制执行了数据集之间的严格分离，测试集中的任何变化模式都不会在训练阶段出现。这确保了报告的性能反映了真正的鲁棒性，而非信息泄露或模式记忆。

##### 训练实现。

我们采用Qwen2.5-7B-Instruct（Qwen等，2024）作为骨干模型。SFT阶段使用全参数微调

相似文章

Agent-World：面向演进式通用智能体的现实世界环境合成扩展

Hugging Face Daily Papers

# 论文页面 - Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence 来源：[https://huggingface.co/papers/2604.18292](https://huggingface.co/papers/2604.18292) 发布于 4 月 20 日 · 提交者[https://huggingface.co/dongguanting](https://huggingface.co/dongguanting) [![](https://cdn-avatars.huggingface.co/v1/production/uploads/61cd4b833dd34ba1985e0753/BfHfrwotoMESpXZOHiIe4.png)](https://huggingface.co/dongguanting) [KABI](https://huggingface.co/donggua

智能体能否泛化到开放世界？揭示工具使用中静态训练的脆弱性

相似文章

Agent-World：面向演进式通用智能体的现实世界环境合成扩展

多智能体交互中出现的工具使用

Anthropic和OpenAI声称，他们的模型强大到足以“突破”其沙盒……但他们的智能体实现到底有何特别之处？

OpenSkill：LLM智能体的开放世界自进化

AI Agent的根本问题

提交意见反馈