EnvFactory:通过可执行环境合成与鲁棒强化学习扩展工具使用智能体

Hugging Face Daily Papers 论文

摘要

EnvFactory 自动化创建可执行工具环境和自然的多轮轨迹,用于训练具有智能体强化学习能力的大语言模型,在使用比先前工作更少的环境下,在 BFCLv3 和 MCP-Atlas 等基准测试上取得了优异性能。

通过智能体强化学习(Agentic RL)为 LLM 配备工具使用能力面临两大瓶颈:缺乏可扩展、鲁棒的执行环境,以及缺乏能够捕捉隐式人类推理的真实训练数据。现有方法依赖于昂贵的现实 API、易产生幻觉的 LLM 模拟器,或者通常是单轮或依赖预先收集文档的合成环境。此外,合成轨迹常常过度规格化,类似于指令序列而非自然的人类意图,从而降低了其在 RL 训练中的有效性。我们提出了 EnvFactory,一个完全自动化的框架,旨在同时解决这两个挑战。EnvFactory 从真实资源中自主探索并验证有状态、可执行的工具环境,并通过拓扑感知采样和校准精炼合成自然的多轮轨迹,生成带有隐式意图的落地查询。仅凭 7 个领域中的 85 个经过验证的环境,EnvFactory 就生成了 2,575 条 SFT 和 RL 轨迹。尽管使用的环境数量远少于先前工作(通常少 5 倍),EnvFactory 实现了卓越的训练效率和下游性能,将 Qwen3 系列模型的 BFCLv3 性能提升高达 15%,MCP-Atlas 提升 8.6%,并在包括 τ^2-Bench 和 VitaBench 的对话基准上提升 6%。通过完全自动化环境构建和轨迹合成,EnvFactory 为智能体强化学习提供了可扩展、可扩展且鲁棒的基础。
查看原文
查看缓存全文

缓存时间: 2026/05/20 06:36

论文页面 - EnvFactory: 通过可执行环境合成与稳健强化学习扩展工具使用智能体

来源:https://huggingface.co/papers/2605.18703 作者:

,

,

,

,

,

,

,

,

,

,

,

,

,

摘要

EnvFactory 能够自动化创建可执行工具环境以及自然的、多轮次的轨迹,用于通过智能体强化学习训练大语言模型,从而以更少的资源实现更优的性能。

通过智能体强化学习(Agentic RL)为 LLM 配备工具使用能力面临两大瓶颈:缺乏可扩展且稳健的执行环境,以及缺少包含隐含人类推理的现实训练数据。现有方法依赖于昂贵的真实世界 API、容易产生幻觉的 LLM 模拟器,或通常是单轮次或依赖预收集文档的合成环境。此外,合成轨迹往往过于具体化,类似于指令序列而非自然的人类意图,从而降低了其在 RL 训练中的有效性。我们提出了 EnvFactory,一个完全自动化的框架,用于解决上述两个挑战。EnvFactory 能够从真实资源中自主探索并验证有状态、可执行的工具环境,并通过拓扑感知采样校准精炼合成自然的、多轮次的轨迹,生成带有隐含意图的接地查询。仅使用7个领域的85个验证环境,EnvFactory 便生成了2,575条 SFT 和 RL 轨迹。尽管使用的环境数量远少于先前工作(往往是其5倍),EnvFactory 仍实现了更优的训练效率和下游性能,使 Qwen3 系列模型在 BFCLv3 上提升了高达15%,在 MCP-Atlas 上提升了8.6%,在包括 τ^2-Bench 和 VitaBench 在内的对话基准上提升了6%。通过完全自动化环境构建和轨迹合成,EnvFactory 为智能体强化学习提供了可扩展、可扩展且稳健的基础。

查看 arXiv 页面 (https://arxiv.org/abs/2605.18703)查看 PDF (https://arxiv.org/pdf/2605.18703)GitHub16 (https://github.com/LARK-AI-Lab/EnvFactory)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.18703)

在你的智能体中获取该论文:

hf papers read 2605.18703

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型3

LARK-Lab/EnvFactory-1.7B 文本生成• 2B• 更新于约19小时前 • 11 (https://huggingface.co/LARK-Lab/EnvFactory-1.7B)

LARK-Lab/EnvFactory-4B 文本生成• 4B• 更新于约19小时前 (https://huggingface.co/LARK-Lab/EnvFactory-4B)

LARK-Lab/EnvFactory-8B 文本生成• 8B• 更新于约2小时前 (https://huggingface.co/LARK-Lab/EnvFactory-8B)

引用该论文的数据集3

LARK-Lab/EnvFactory-RL 查看器• 更新于约3小时前 • 3.09k (https://huggingface.co/datasets/LARK-Lab/EnvFactory-RL)

LARK-Lab/EnvFactory-SFT-FILTERED 查看器• 更新于约3小时前 • 26.5k (https://huggingface.co/datasets/LARK-Lab/EnvFactory-SFT-FILTERED)

LARK-Lab/EnvFactory-SFT-ALL 查看器• 更新于约3小时前 • 53.4k (https://huggingface.co/datasets/LARK-Lab/EnvFactory-SFT-ALL)

引用该论文的空间0

无关联该论文的 Space

请在 Space README.md 中引用 arxiv.org/abs/2605.18703,以将其链接到此页面。

包含该论文的收藏1

相似文章

ClawEnvKit:面向类爪智能体的自动环境生成

Hugging Face Daily Papers

# 论文页面 - ClawEnvKit:面向类爪智能体的自动环境生成 来源:[https://huggingface.co/papers/2604.18543](https://huggingface.co/papers/2604.18543) ## 摘要 一个自动化流程能够基于自然语言描述,为类爪智能体生成多样化且经过验证的环境,从而实现大规模基准构建与持续评估。为训练和评估类爪智能体构建环境仍然是一个依赖人工的劳动密集型过程,且

Ecom-RLVE:面向电商对话代理的自适应可验证环境

Hugging Face Blog

Huggingface 推出 EcomRLVE-GYM,这是一个提供八个可验证环境的框架,用于在复杂电商任务上训练强化学习智能体。该工具具备自适应难度课程和算法化奖励机制,以提升购物助手的任务完成率,并已通过训练 Qwen 3 8B 模型进行了验证。