EnvFactory：通过可执行环境合成与鲁棒强化学习扩展工具使用智能体

Hugging Face Daily Papers 2026/05/18 00:00 论文

tool-use reinforcement-learning environment-synthesis agentic-rl llm trajectory-synthesis

摘要

EnvFactory 自动化创建可执行工具环境和自然的多轮轨迹，用于训练具有智能体强化学习能力的大语言模型，在使用比先前工作更少的环境下，在 BFCLv3 和 MCP-Atlas 等基准测试上取得了优异性能。

通过智能体强化学习（Agentic RL）为 LLM 配备工具使用能力面临两大瓶颈：缺乏可扩展、鲁棒的执行环境，以及缺乏能够捕捉隐式人类推理的真实训练数据。现有方法依赖于昂贵的现实 API、易产生幻觉的 LLM 模拟器，或者通常是单轮或依赖预先收集文档的合成环境。此外，合成轨迹常常过度规格化，类似于指令序列而非自然的人类意图，从而降低了其在 RL 训练中的有效性。我们提出了 EnvFactory，一个完全自动化的框架，旨在同时解决这两个挑战。EnvFactory 从真实资源中自主探索并验证有状态、可执行的工具环境，并通过拓扑感知采样和校准精炼合成自然的多轮轨迹，生成带有隐式意图的落地查询。仅凭 7 个领域中的 85 个经过验证的环境，EnvFactory 就生成了 2,575 条 SFT 和 RL 轨迹。尽管使用的环境数量远少于先前工作（通常少 5 倍），EnvFactory 实现了卓越的训练效率和下游性能，将 Qwen3 系列模型的 BFCLv3 性能提升高达 15%，MCP-Atlas 提升 8.6%，并在包括 τ^2-Bench 和 VitaBench 的对话基准上提升 6%。通过完全自动化环境构建和轨迹合成，EnvFactory 为智能体强化学习提供了可扩展、可扩展且鲁棒的基础。

查看原文

查看缓存全文

缓存时间: 2026/05/20 06:36

论文页面 - EnvFactory: 通过可执行环境合成与稳健强化学习扩展工具使用智能体

来源：https://huggingface.co/papers/2605.18703 作者：

摘要

EnvFactory 能够自动化创建可执行工具环境以及自然的、多轮次的轨迹，用于通过智能体强化学习训练大语言模型，从而以更少的资源实现更优的性能。

通过智能体强化学习（Agentic RL）为 LLM 配备工具使用能力面临两大瓶颈：缺乏可扩展且稳健的执行环境，以及缺少包含隐含人类推理的现实训练数据。现有方法依赖于昂贵的真实世界 API、容易产生幻觉的 LLM 模拟器，或通常是单轮次或依赖预收集文档的合成环境。此外，合成轨迹往往过于具体化，类似于指令序列而非自然的人类意图，从而降低了其在 RL 训练中的有效性。我们提出了 EnvFactory，一个完全自动化的框架，用于解决上述两个挑战。EnvFactory 能够从真实资源中自主探索并验证有状态、可执行的工具环境，并通过拓扑感知采样和校准精炼合成自然的、多轮次的轨迹，生成带有隐含意图的接地查询。仅使用7个领域的85个验证环境，EnvFactory 便生成了2,575条 SFT 和 RL 轨迹。尽管使用的环境数量远少于先前工作（往往是其5倍），EnvFactory 仍实现了更优的训练效率和下游性能，使 Qwen3 系列模型在 BFCLv3 上提升了高达15%，在 MCP-Atlas 上提升了8.6%，在包括 τ^2-Bench 和 VitaBench 在内的对话基准上提升了6%。通过完全自动化环境构建和轨迹合成，EnvFactory 为智能体强化学习提供了可扩展、可扩展且稳健的基础。

查看 arXiv 页面 (https://arxiv.org/abs/2605.18703)查看 PDF (https://arxiv.org/pdf/2605.18703)GitHub16 (https://github.com/LARK-AI-Lab/EnvFactory)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.18703)

在你的智能体中获取该论文：

hf papers read 2605.18703

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型3

LARK-Lab/EnvFactory-1.7B 文本生成• 2B• 更新于约19小时前 • 11 (https://huggingface.co/LARK-Lab/EnvFactory-1.7B)

LARK-Lab/EnvFactory-4B 文本生成• 4B• 更新于约19小时前 (https://huggingface.co/LARK-Lab/EnvFactory-4B)

LARK-Lab/EnvFactory-8B 文本生成• 8B• 更新于约2小时前 (https://huggingface.co/LARK-Lab/EnvFactory-8B)

引用该论文的数据集3

LARK-Lab/EnvFactory-RL 查看器• 更新于约3小时前 • 3.09k (https://huggingface.co/datasets/LARK-Lab/EnvFactory-RL)

LARK-Lab/EnvFactory-SFT-FILTERED 查看器• 更新于约3小时前 • 26.5k (https://huggingface.co/datasets/LARK-Lab/EnvFactory-SFT-FILTERED)

LARK-Lab/EnvFactory-SFT-ALL 查看器• 更新于约3小时前 • 53.4k (https://huggingface.co/datasets/LARK-Lab/EnvFactory-SFT-ALL)

引用该论文的空间0

无关联该论文的 Space

请在 Space README.md 中引用 arxiv.org/abs/2605.18703，以将其链接到此页面。

EnvFactory：通过可执行环境合成与鲁棒强化学习扩展工具使用智能体

论文页面 - EnvFactory: 通过可执行环境合成与稳健强化学习扩展工具使用智能体

摘要

引用该论文的模型3

LARK-Lab/EnvFactory-1.7B 文本生成• 2B• 更新于约19小时前 • 11 (https://huggingface.co/LARK-Lab/EnvFactory-1.7B)

LARK-Lab/EnvFactory-4B 文本生成• 4B• 更新于约19小时前 (https://huggingface.co/LARK-Lab/EnvFactory-4B)

LARK-Lab/EnvFactory-8B 文本生成• 8B• 更新于约2小时前 (https://huggingface.co/LARK-Lab/EnvFactory-8B)

引用该论文的数据集3

LARK-Lab/EnvFactory-RL 查看器• 更新于约3小时前 • 3.09k (https://huggingface.co/datasets/LARK-Lab/EnvFactory-RL)

LARK-Lab/EnvFactory-SFT-FILTERED 查看器• 更新于约3小时前 • 26.5k (https://huggingface.co/datasets/LARK-Lab/EnvFactory-SFT-FILTERED)

LARK-Lab/EnvFactory-SFT-ALL 查看器• 更新于约3小时前 • 53.4k (https://huggingface.co/datasets/LARK-Lab/EnvFactory-SFT-ALL)

引用该论文的空间0

包含该论文的收藏1

相似文章

EnvScaler：通过程序综合为LLM智能体扩展工具交互环境

ClawEnvKit：面向类爪智能体的自动环境生成

EnvSimBench：用于评估和改善基于大语言模型的环境模拟的基准

Ecom-RLVE：面向电商对话代理的自适应可验证环境

学习构建环境：通过可验证环境合成实现自我进化推理强化学习

提交意见反馈