从受训者到训练者:面向多智能体推理的强化学习的LLM设计训练环境

arXiv cs.CL 论文

摘要

本文提出了LLM-as-Environment-Engineer框架,其中策略模型通过分析失败案例自动重新设计强化学习训练环境,并引入MAPF-FrozenLake作为可控测试平台。该框架使用Qwen3-4B模型,性能优于GPT和Gemini等更大规模模型,表明策略学习提升了模型诊断自身弱点的能力。

arXiv:2606.17682v1 Announce Type: new 摘要:用于大语言模型训练的强化学习流程通常依赖阶段间手动重新设计环境,要求从业者启发式推断哪种配置最能改进当前策略。为自动化这一过程,我们提出了LLM-as-Environment-Engineer框架,其中当前策略模型分析失败轨迹及上下文信息,并为下一阶段训练环境配置提出修改方案。我们还引入了MAPF-FrozenLake,一个可控测试平台,其生成器暴露多维环境配置,适合研究和基准测试环境重新设计。在该测试平台上,我们将环境工程师基于策略行为、失败案例和环境统计的结构化摘要进行调整,从而生成下一训练阶段的配置。以Qwen3-4B为骨干模型,我们的框架在基准测试中取得了最佳综合性能,优于更大的专有LLM(如GPT、Gemini)和固定环境训练基线。我们进一步分析了哪种上下文形式最有效,发现成功的环境更新依赖于失败证据,并保留已起作用的配置。有趣的是,当前的RL检查点比原始基础模型更适合作为环境工程师,表明策略学习提升了模型诊断自身剩余弱点的能力。
查看原文
查看缓存全文

缓存时间: 2026/06/17 05:41

# 从受训者到训练师:基于LLM设计的强化学习多智能体推理训练环境
来源:https://arxiv.org/abs/2606.17682
查看PDF (https://arxiv.org/pdf/2606.17682)

> 摘要:大语言模型(LLM)的强化学习训练流程通常依赖各阶段之间手动重新设计的环境,这要求从业者通过启发式方法推断哪种配置能最好地改进当前策略。为自动化这一过程,我们提出了"LLM作为环境工程师"框架,在该框架中,当前策略模型会分析失败轨迹及其上下文信息,并对下一阶段训练环境的配置提出修改建议。我们还引入了MAPF-FrozenLake,这是一个可调控的测试平台,其生成器暴露了多维环境配置,非常适合研究和基准测试环境重新设计。在该测试平台上,我们将环境工程师的输入条件设置为策略行为、失败案例和环境统计的结构化摘要,环境工程师据此生成下一训练阶段的配置。以Qwen3-4B为骨干模型,我们的框架在基准测试中取得了最强的综合性能,超越了更大的专有LLM(如GPT、Gemini)以及固定环境训练基线。我们进一步分析了哪些形式的上下文最有效,发现成功的环境更新依赖失败证据,并保留了已经有效的配置。有趣的是,当前的RL检查点比原始基础模型更适合作为环境工程师,这表明策略学习提升了模型诊断自身弱点的能力。

## 提交历史

来自:Chao Chen [查看邮箱](https://arxiv.org/show-email/2c74b96f/2606.17682) **[v1]** 2026年6月16日星期二 08:48:58 UTC(4,921 KB)

相似文章

ExpRL:面向LLM中期训练的探索式强化学习

Hugging Face Daily Papers

ExpRL是一种新的基于强化学习的中期训练方法,它使用人工编写的参考答案作为密集奖励支架(从未向策略展示),从而提升LLM推理能力,在AIME-2026等困难数学基准上取得了显著提升。