EnvFactory:通过可执行环境合成与鲁棒强化学习扩展工具使用智能体
摘要
EnvFactory 自动化创建可执行工具环境和自然的多轮轨迹,用于训练具有智能体强化学习能力的大语言模型,在使用比先前工作更少的环境下,在 BFCLv3 和 MCP-Atlas 等基准测试上取得了优异性能。
查看缓存全文
缓存时间: 2026/05/20 06:36
论文页面 - EnvFactory: 通过可执行环境合成与稳健强化学习扩展工具使用智能体
来源:https://huggingface.co/papers/2605.18703 作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
EnvFactory 能够自动化创建可执行工具环境以及自然的、多轮次的轨迹,用于通过智能体强化学习训练大语言模型,从而以更少的资源实现更优的性能。
通过智能体强化学习(Agentic RL)为 LLM 配备工具使用能力面临两大瓶颈:缺乏可扩展且稳健的执行环境,以及缺少包含隐含人类推理的现实训练数据。现有方法依赖于昂贵的真实世界 API、容易产生幻觉的 LLM 模拟器,或通常是单轮次或依赖预收集文档的合成环境。此外,合成轨迹往往过于具体化,类似于指令序列而非自然的人类意图,从而降低了其在 RL 训练中的有效性。我们提出了 EnvFactory,一个完全自动化的框架,用于解决上述两个挑战。EnvFactory 能够从真实资源中自主探索并验证有状态、可执行的工具环境,并通过拓扑感知采样和校准精炼合成自然的、多轮次的轨迹,生成带有隐含意图的接地查询。仅使用7个领域的85个验证环境,EnvFactory 便生成了2,575条 SFT 和 RL 轨迹。尽管使用的环境数量远少于先前工作(往往是其5倍),EnvFactory 仍实现了更优的训练效率和下游性能,使 Qwen3 系列模型在 BFCLv3 上提升了高达15%,在 MCP-Atlas 上提升了8.6%,在包括 τ^2-Bench 和 VitaBench 在内的对话基准上提升了6%。通过完全自动化环境构建和轨迹合成,EnvFactory 为智能体强化学习提供了可扩展、可扩展且稳健的基础。
查看 arXiv 页面 (https://arxiv.org/abs/2605.18703)查看 PDF (https://arxiv.org/pdf/2605.18703)GitHub16 (https://github.com/LARK-AI-Lab/EnvFactory)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.18703)
在你的智能体中获取该论文:
hf papers read 2605.18703
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用该论文的模型3
LARK-Lab/EnvFactory-1.7B 文本生成• 2B• 更新于约19小时前 • 11 (https://huggingface.co/LARK-Lab/EnvFactory-1.7B)
LARK-Lab/EnvFactory-4B 文本生成• 4B• 更新于约19小时前 (https://huggingface.co/LARK-Lab/EnvFactory-4B)
LARK-Lab/EnvFactory-8B 文本生成• 8B• 更新于约2小时前 (https://huggingface.co/LARK-Lab/EnvFactory-8B)
引用该论文的数据集3
LARK-Lab/EnvFactory-RL 查看器• 更新于约3小时前 • 3.09k (https://huggingface.co/datasets/LARK-Lab/EnvFactory-RL)
LARK-Lab/EnvFactory-SFT-FILTERED 查看器• 更新于约3小时前 • 26.5k (https://huggingface.co/datasets/LARK-Lab/EnvFactory-SFT-FILTERED)
LARK-Lab/EnvFactory-SFT-ALL 查看器• 更新于约3小时前 • 53.4k (https://huggingface.co/datasets/LARK-Lab/EnvFactory-SFT-ALL)
引用该论文的空间0
无关联该论文的 Space
请在 Space README.md 中引用 arxiv.org/abs/2605.18703,以将其链接到此页面。
包含该论文的收藏1
相似文章
EnvScaler:通过程序综合为LLM智能体扩展工具交互环境
EnvScaler是一个自动化框架,通过程序综合为LLM智能体扩展工具交互环境,创建了191个多样化环境和7K个场景,以提升智能体在多轮、多工具交互任务上的性能。
ClawEnvKit:面向类爪智能体的自动环境生成
# 论文页面 - ClawEnvKit:面向类爪智能体的自动环境生成 来源:[https://huggingface.co/papers/2604.18543](https://huggingface.co/papers/2604.18543) ## 摘要 一个自动化流程能够基于自然语言描述,为类爪智能体生成多样化且经过验证的环境,从而实现大规模基准构建与持续评估。为训练和评估类爪智能体构建环境仍然是一个依赖人工的劳动密集型过程,且
EnvSimBench:用于评估和改善基于大语言模型的环境模拟的基准
本文介绍了 EnvSimBench,这是一个用于评估大语言模型在智能体训练中模拟环境能力的基准。它指出了当前大语言模型中存在的“状态变化悬崖”问题,并提出了一种约束驱动的流水线以减少幻觉和降低成本。
Ecom-RLVE:面向电商对话代理的自适应可验证环境
Huggingface 推出 EcomRLVE-GYM,这是一个提供八个可验证环境的框架,用于在复杂电商任务上训练强化学习智能体。该工具具备自适应难度课程和算法化奖励机制,以提升购物助手的任务完成率,并已通过训练 Qwen 3 8B 模型进行了验证。
学习构建环境:通过可验证环境合成实现自我进化推理强化学习
本文提出EvoEnv,一种让语言模型通过强化学习构建可验证的Python环境以实现自我改进的方法,在Qwen3-4B-Thinking上取得了3.3%的相对提升。