从受训者到训练者:面向多智能体推理的强化学习的LLM设计训练环境
摘要
本文提出了LLM-as-Environment-Engineer框架,其中策略模型通过分析失败案例自动重新设计强化学习训练环境,并引入MAPF-FrozenLake作为可控测试平台。该框架使用Qwen3-4B模型,性能优于GPT和Gemini等更大规模模型,表明策略学习提升了模型诊断自身弱点的能力。
arXiv:2606.17682v1 Announce Type: new
摘要:用于大语言模型训练的强化学习流程通常依赖阶段间手动重新设计环境,要求从业者启发式推断哪种配置最能改进当前策略。为自动化这一过程,我们提出了LLM-as-Environment-Engineer框架,其中当前策略模型分析失败轨迹及上下文信息,并为下一阶段训练环境配置提出修改方案。我们还引入了MAPF-FrozenLake,一个可控测试平台,其生成器暴露多维环境配置,适合研究和基准测试环境重新设计。在该测试平台上,我们将环境工程师基于策略行为、失败案例和环境统计的结构化摘要进行调整,从而生成下一训练阶段的配置。以Qwen3-4B为骨干模型,我们的框架在基准测试中取得了最佳综合性能,优于更大的专有LLM(如GPT、Gemini)和固定环境训练基线。我们进一步分析了哪种上下文形式最有效,发现成功的环境更新依赖于失败证据,并保留已起作用的配置。有趣的是,当前的RL检查点比原始基础模型更适合作为环境工程师,表明策略学习提升了模型诊断自身剩余弱点的能力。
查看缓存全文
缓存时间: 2026/06/17 05:41
# 从受训者到训练师:基于LLM设计的强化学习多智能体推理训练环境 来源:https://arxiv.org/abs/2606.17682 查看PDF (https://arxiv.org/pdf/2606.17682) > 摘要:大语言模型(LLM)的强化学习训练流程通常依赖各阶段之间手动重新设计的环境,这要求从业者通过启发式方法推断哪种配置能最好地改进当前策略。为自动化这一过程,我们提出了"LLM作为环境工程师"框架,在该框架中,当前策略模型会分析失败轨迹及其上下文信息,并对下一阶段训练环境的配置提出修改建议。我们还引入了MAPF-FrozenLake,这是一个可调控的测试平台,其生成器暴露了多维环境配置,非常适合研究和基准测试环境重新设计。在该测试平台上,我们将环境工程师的输入条件设置为策略行为、失败案例和环境统计的结构化摘要,环境工程师据此生成下一训练阶段的配置。以Qwen3-4B为骨干模型,我们的框架在基准测试中取得了最强的综合性能,超越了更大的专有LLM(如GPT、Gemini)以及固定环境训练基线。我们进一步分析了哪些形式的上下文最有效,发现成功的环境更新依赖失败证据,并保留了已经有效的配置。有趣的是,当前的RL检查点比原始基础模型更适合作为环境工程师,这表明策略学习提升了模型诊断自身弱点的能力。 ## 提交历史 来自:Chao Chen [查看邮箱](https://arxiv.org/show-email/2c74b96f/2606.17682) **[v1]** 2026年6月16日星期二 08:48:58 UTC(4,921 KB)
相似文章
从受训者到训练者:LLM为多智能体推理强化学习设计的训练环境
本文介绍了LLM-as-Environment-Engineer框架,该框架使LLM能够为多智能体推理任务中的强化学习设计自己的训练环境,实现自我改进训练,其性能超越更大的专有模型。
EvoTrainer:面向自主智能体强化学习的LLM策略与训练框架协同进化
EvoTrainer提出了一种自主训练框架,通过经验反馈协同进化LLM策略与训练框架,在数学推理、代码生成以及长期软件工程任务上超越了人工设计的强化学习基线。
多智能体RL何时能提升LLM工作流?工作流、规模与策略共享的权衡
本文研究了端到端强化学习训练何时能改善多智能体LLM工作流,比较了不同工作流、任务和模型规模下的共享策略与隔离策略训练,揭示了条件性权衡。
ExpRL:面向LLM中期训练的探索式强化学习
ExpRL是一种新的基于强化学习的中期训练方法,它使用人工编写的参考答案作为密集奖励支架(从未向策略展示),从而提升LLM推理能力,在AIME-2026等困难数学基准上取得了显著提升。
EnvFactory:通过可执行环境合成与鲁棒强化学习扩展工具使用智能体
EnvFactory 自动化创建可执行工具环境和自然的多轮轨迹,用于训练具有智能体强化学习能力的大语言模型,在使用比先前工作更少的环境下,在 BFCLv3 和 MCP-Atlas 等基准测试上取得了优异性能。