EnvScaler：通过程序综合为LLM智能体扩展工具交互环境

arXiv cs.CL 2026/04/20 04:00 论文

摘要

EnvScaler是一个自动化框架，通过程序综合为LLM智能体扩展工具交互环境，创建了191个多样化环境和7K个场景，以提升智能体在多轮、多工具交互任务上的性能。

arXiv:2601.05808v2 公告类型：替换摘要：大语言模型（LLMs）需要被训练以在各种真实环境中充当智能体，但这个过程依赖于丰富多样的工具交互沙箱。然而，对真实系统的访问通常受到限制；LLM模拟环境容易产生幻觉和不一致；手动构建的沙箱难以扩展。本文提出EnvScaler，一个通过程序综合实现可扩展工具交互环境的自动化框架。EnvScaler包含两个组件。首先，SkelBuilder通过主题挖掘、逻辑建模和质量评估来构造多样化的环境骨架。其次，ScenGenerator为每个环境生成多个任务场景和基于规则的轨迹验证函数。使用EnvScaler，我们综合了191个环境和约7K个场景，并将其应用于Qwen3系列模型的监督微调（SFT）和强化学习（RL）。在三个基准测试上的结果表明，EnvScaler显著提升了LLMs在涉及多轮、多工具交互的复杂环境中解决任务的能力。我们在https://github.com/RUC-NLPIR/EnvScaler发布了代码和数据。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/20 08:31

# EnvScaler: 通过程序化合成为LLM智能体扩展工具交互环境

来源: https://arxiv.org/html/2601.05808

宋晓帅、常浩飞、董冠廷、朱宇涛、文继荣、窦志成

中国人民大学高瓴人工智能学院。{songxiaoshuai,dou}@ruc.edu.cn

GitHub: https://github.com/RUC-NLPIR/EnvScaler

###### 摘要

大语言模型(LLM)被期望训练为在各种真实环境中充当智能体，但此过程依赖于丰富多样的工具交互沙箱。然而，真实系统的访问通常受限；LLM模拟的环境容易出现幻觉和不一致现象；手动构建的沙箱难以扩展。本文提出EnvScaler，一个用于通过程序化合成实现可扩展工具交互环境的自动化框架。EnvScaler包含两个组件。首先，SkelBuilder通过主题挖掘、逻辑建模和质量评估来构造多样化的环境框架。然后，ScenGenerator为每个环境生成多个任务场景和基于规则的轨迹验证函数。通过EnvScaler，我们合成了191个环境和约7K个场景，并将其应用于Qwen3系列模型的监督微调(SFT)和强化学习(RL)。三个基准上的结果表明，EnvScaler显著提高了LLM在涉及多轮、多工具交互的复杂环境中解决任务的能力。

EnvScaler: 通过程序化合成为LLM智能体扩展工具交互环境

宋晓帅、常浩飞、董冠廷、朱宇涛、文继荣、窦志成††致谢：对应作者

中国人民大学高瓴人工智能学院。{songxiaoshuai,dou}@ruc.edu.cn

GitHub: https://github.com/RUC-NLPIR/EnvScaler

## 1 介绍

大语言模型(LLM)越来越多地被期望在广泛的真实应用中充当智能体，如修改电商后端订单、通过购票平台重新安排航班或在文件系统中管理文档(Luo等，2025；Yao等，2025；Qian等，2025)。在这些应用中，智能体在特定环境(Env)中操作，与用户交互以收集信息并调用工具来查询或更新Env的状态，如图1所示。这要求LLM能够结合对话和工具使用、根据Env反馈调整行动，以及在长范围轨迹上尊重Env规则解决任务。

参考图1：工具交互环境的示意图。环境(1)定义规则并为智能体提供工具接口；(2)执行智能体的工具调用以更新其状态并返回结果。

为了开发这样的高能力LLM智能体，扩展丰富多样的工具交互环境至关重要。无论是通过收集轨迹进行模仿学习，还是通过自主探索和Env内的强化学习(RL)，我们希望在训练中接触足够广泛的环境范围能够使LLM有效泛化到测试时的未见环境和场景(Huang等，2025；Liu等，2025a；Froger等，2026)。

然而，如表1所示，真实环境通常访问受限；LLM模拟的环境也存在幻觉和不一致问题。最近的一系列研究(Patil等，2025；Yao等，2025；Lu等，2025)通过可执行程序构建有状态、工具交互的沙箱，在可控性和稳定性方面具有优势。尽管如此，这些环境是为评估目的手动创建的，覆盖面有限且可扩展性不足。因此，关键挑战在于自动化合成和扩展沙箱环境以支持训练。这需要创建具有状态、工具和交互逻辑的多样化、高质量环境，并为每个环境设计相应的任务。

| 环境类型 | 可扩展 | 一致性 | 可控性 | 稳定性 | 可解释性 |
|---------|-------|-------|-------|-------|---------|
| 真实环境 | ✗ | ✓ | ✗ | ✓ | ✓ |
| LLM模拟 | ✓ | ✗ | ✓ | ✗ | ✗ |
| 程序化 | ✓ | ✓ | ✓ | ✓ | ✓ |

表1：三种Env类型用于LLM训练的关键属性比较。可扩展：易于大规模扩展；一致性：多次调用间的逻辑一致；可控性：修改Env逻辑的灵活性；稳定性：随时间的可重现性；可解释性：Env逻辑的透明度。符号表示：✓完全支持，✗不支持，✓部分或条件支持。

一些研究已在解决这一挑战方面取得进展，使用LLM作为环境逻辑的程序员而非直接模拟器。一种方法(Ye等，2025；Sullivan等，2025)仅关注工具层建模，不对沙箱状态进行建模，也不考虑工具和数据库间的交互逻辑。另一种方法(Tang等，2024；Piriyakalkij等，2025)寻求从现有观测(如轨迹)中以编程方式重建环境，但必然依赖于对已有环境的访问。此外，AgentScaler(Fang等，2025)和AutoForge(Cai等，2025)依赖于预先收集的工具集或工具文档，缺乏自动评估环境质量的机制。由于这些局限，在自动合成和扩展工具交互环境而不依赖环境先验或工具集方面仍存在显著差距。

为了弥补这一差距，我们提出EnvScaler，一个用于自动、可扩展地合成多样化、可执行、工具交互环境以训练LLM智能体的框架，如图2所示。我们首先介绍SkelBuilder来自动化环境框架的构造，涵盖主题挖掘、逻辑建模和评估。它包含三个模块：(1) 任务驱动的环境发现：从现有开源任务集中挖掘多样化的环境主题。(2) 可执行环境构造：从环境描述开始，规划状态和工具，并以编程方式将其实现为完整、可运行的环境。(3) 质量检查：测试智能体发送工具请求，检查智能体评估执行是否符合预期。此过程迭代多轮，通过率指示环境质量。

参考图2：EnvScaler的总览。

为了进一步为每个环境合成多个任务场景，我们提出ScenGenerator。为确保任务相关性和在给定环境及场景内的可解决性，ScenGenerator首先合成环境的初始数据库/状态，然后从当前状态推导挑战性任务。为实现基于规则的轨迹验证，ScenGenerator为每个任务生成一组终止状态验证函数。轨迹结束后，这些函数检查最终环境状态是否符合预期条件，使用函数通过率作为奖励分数。

为验证EnvScaler的有效性，我们合成了191个环境和约7K个场景，应用于Qwen3系列模型的SFT和RL。对多个工具使用基准(Patil等，2025；Yao等，2025；Chen等，2025)的评估表明，EnvScaler显著增强了LLM在涉及多轮、多工具交互的复杂环境中解决任务的能力。对环境覆盖、规模和训练策略的进一步分析提供了关于合成环境如何促进工具学习和LLM智能体泛化的见解。

参考图3：SkelBuilder的完整框架。

总而言之，我们提出EnvScaler用于可扩展的工具交互环境合成。我们的贡献有三方面：(1) 我们提出SkelBuilder，一个用于合成多样化、可执行环境框架的自动化框架。(2) 我们提出ScenGenerator，一个场景生成流程，为每个环境生成状态数据、挑战性任务和基于规则的轨迹验证。(3) 在三个基准上的实验验证了EnvScaler在改进LLM在涉及多轮、多工具交互的复杂环境中解决任务能力方面的有效性。

## 2 相关工作

### 2.1 LLM的工具使用

许多研究旨在改进LLM利用工具解决任务的能力(Qu等，2025；Luo等，2025)。本文重点关注各种特定领域环境中的通用工具使用(Patil等，2025；Yao等，2025；Chen等，2025)，而不是以Python或搜索工具为中心的工具集成推理和网络信息访问(Dong等，2025；Li等，2025a)。一些工作从不同角度探索了训练数据和RL策略(Prabhakar等，2025；Liu等，2025b；Xu等，2025；Zhang等，2026；Zhao等，2025)。然而，它们主要关注合成静态轨迹，无法支持LLM的自主探索。对于轨迹评估，它们主要依赖表面匹配，检查生成的工具名称和参数是否与参考匹配，这既不足以确定任务是否真正完成，也无法适应多个等价解决路径。相比之下，我们合成可执行环境和任务，以及基于环境状态的基于规则的评估，从而支持LLM在多样化场景中的训练。

### 2.2 为LLM智能体扩展环境

环境为智能体提供行动反馈和奖励以进行交互和策略优化。我们关注工具交互环境，其中LLM智能体可以使用工具查询环境信息或改变环境的状态。一项研究(Guo等，2024，2025；Castellani等，2025；Li等，2025b)利用LLM的推理和世界知识来模拟环境。虽然无需构建真实环境，但它容易出现幻觉和不一致，缺乏透明度和持久状态管理。另一项研究(Tang等，2024；Ye等，2025；Fang等，2025；Cai等，2025)通过编程构建沙箱环境。然而，它们要么仅建模隔离的无状态函数，要么依赖环境先验(如轨迹、工具集)并缺乏自动评估，这限制了可扩展性和覆盖面。因此，我们提出EnvScaler以实现自动、可扩展的环境和场景合成来训练智能体。

## 3 自动化Env框架合成概述

SkelBuilder的目标是构造环境{E}，其中每个可抽象为三个元素的集合：

E={F_exec, E_doc, Σ_tool}

- • 可执行程序文件F_exec：E的状态、工具和规则的完整逻辑实现。
- • 文档E_doc：为智能体提供关于E的介绍或规则。
- • 工具接口集Σ_tool：所有向智能体公开的工具的名称、参数和描述，作为智能体-Env交互的入口。

如图3所示，SkelBuilder实现从文本资源挖掘到环境建模和评估的自动化工作流。

### 3.1 任务引导的Env发现

扩展环境的第一步是收集多样化的环境主题。与手动预设或从API集合衍生不同(Fang等，2025)，SkelBuilder从现有文本资源中挖掘它们。考�虑到围绕SFT的研究已收集了可能隐含包含潜在环境背景的大量多样化任务，这启发我们通过从现有任务的逆向推断来获得主题。

给定任务集T_exist={t_1,...,t_n}，LLM M首先执行二元过滤以保留位于特定领域、有状态环境内的任务。对于每个保留的任务，M推断对应的环境描述：

{E'_des}={M(P_infer^env||t) | t ∈ T_exist, M(P_filter^task||t)}

其中P_filter^task和P_infer^env表示任务过滤和环境推断的提示。推断的环境随后通过嵌入每个描述并保留来自高度相似描述组的一条记录进行聚合和去重，最终产生多样化、非冗余的集合{E_des}=Dedup({E'_des}, sim)。

### 3.2 自动化可执行Env构造

为将环境描述转化为以编程方式建模的环境，我们设计了一个三阶段流水线。

逻辑规划。一个LLM扩充环境描述E_des，推断Env状态定义E_state、领域规则E_rule和工具操作列表{E_tool_i}。这些元素作为结构化蓝图，E_rule与E_des连接形成环境文档E_doc：

E_state, E_rule = M(P_plan^state || E_des)

{E_tool_i} = M(P_plan^tool || E_des || E_state || E_rule)

相似文章

ClawEnvKit：面向类爪智能体的自动环境生成

Hugging Face Daily Papers

# 论文页面 - ClawEnvKit：面向类爪智能体的自动环境生成来源：[https://huggingface.co/papers/2604.18543](https://huggingface.co/papers/2604.18543) ## 摘要一个自动化流程能够基于自然语言描述，为类爪智能体生成多样化且经过验证的环境，从而实现大规模基准构建与持续评估。为训练和评估类爪智能体构建环境仍然是一个依赖人工的劳动密集型过程，且

AgentScope中的超大规模多智能体仿真

Papers with Code Trending

本文介绍了AgentScope平台的增强功能，包括基于Actor的分布式机制和灵活的环境支持，以实现可扩展、高效且用户友好的超大规模多智能体仿真。

Agent-World：面向演进式通用智能体的现实世界环境合成扩展

Hugging Face Daily Papers

# 论文页面 - Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence 来源：[https://huggingface.co/papers/2604.18292](https://huggingface.co/papers/2604.18292) 发布于 4 月 20 日 · 提交者[https://huggingface.co/dongguanting](https://huggingface.co/dongguanting) [![](https://cdn-avatars.huggingface.co/v1/production/uploads/61cd4b833dd34ba1985e0753/BfHfrwotoMESpXZOHiIe4.png)](https://huggingface.co/dongguanting) [KABI](https://huggingface.co/donggua

GenericAgent：一种通过上下文信息密度最大化实现高效自我演进的通用LLM智能体（V1.0）

Papers with Code Trending

本文介绍了 GenericAgent，这是一种旨在最大化上下文信息密度的自我演进式大语言模型智能体系统。它通过分层记忆、可复用的标准操作流程（SOP）以及高效压缩技术，解决了长周期任务的局限性，在与领先智能体的对比中，以更少的 Token 消耗实现了更优的性能表现。

Ecom-RLVE：面向电商对话代理的自适应可验证环境

Hugging Face Blog

Huggingface 推出 EcomRLVE-GYM，这是一个提供八个可验证环境的框架，用于在复杂电商任务上训练强化学习智能体。该工具具备自适应难度课程和算法化奖励机制，以提升购物助手的任务完成率，并已通过训练 Qwen 3 8B 模型进行了验证。