@sherryyangML:机器学习工程(MLE)正成为新的智能体前沿。我将分享我们在扩展面向MLE智能体的强化学习方面的成果……
摘要
ICLR 2026 的两篇论文展示了小型 RL 训练智能体如何在机器学习工程任务上击败前沿模型,以及 MLE-Smith 如何自动扩展 MLE 工作负载。
机器学习工程(MLE)正成为新的智能体前沿。我将在 #ICLR2026 分享我们在扩展面向 MLE 智能体的强化学习方面的成果:1)小型模型的 RL 训练结果优于前沿模型 http://arxiv.org/abs/2509.01684 2)MLE-Smith:自动扩展 MLE 任务 http://arxiv.org/abs/2510.07307
相似文章
MLE-bench:评估机器学习代理在机器学习工程中的表现
# MLE-bench:评估机器学习代理在机器学习工程中的表现 来源:[https://openai.com/index/mle-bench/](https://openai.com/index/mle-bench/) OpenAI 评估机器学习代理在机器学习工程中的表现 我们推出了 MLE-bench,这是一个用于衡量 AI 代理在机器学习工程中表现如何的基准。为此,我们从 Kaggle 精选了 75 个与 ML 工程相关的竞赛,创建了一个多样化的具有挑战性的任务集合,用于测试真实的 ML 工程
从受训者到训练者:LLM为多智能体推理强化学习设计的训练环境
本文介绍了LLM-as-Environment-Engineer框架,该框架使LLM能够为多智能体推理任务中的强化学习设计自己的训练环境,实现自我改进训练,其性能超越更大的专有模型。
多智能体RL何时能提升LLM工作流?工作流、规模与策略共享的权衡
本文研究了端到端强化学习训练何时能改善多智能体LLM工作流,比较了不同工作流、任务和模型规模下的共享策略与隔离策略训练,揭示了条件性权衡。
@charles_irl: 恰当的后训练强化学习,广泛部署,是迈向未来软件系统能悄然自我改进、适应人类需求的关键一步。
Modal 在其平台上宣布了一个开源的强化学习库,通过可扩展的部署解决后训练强化学习中的基础设施挑战。
从受训者到训练者:面向多智能体推理的强化学习的LLM设计训练环境
本文提出了LLM-as-Environment-Engineer框架,其中策略模型通过分析失败案例自动重新设计强化学习训练环境,并引入MAPF-FrozenLake作为可控测试平台。该框架使用Qwen3-4B模型,性能优于GPT和Gemini等更大规模模型,表明策略学习提升了模型诊断自身弱点的能力。