可验证环境是乐高积木:推理泛化的递归组合
摘要
本文提出RACES,一种递归自动组合框架,将可验证环境视为可组合的构建块,以扩展LLM的强化学习规模,通过组合算子实现高效的推理泛化。
查看缓存全文
缓存时间: 2026/06/11 13:39
论文页面 - 可验证环境如同乐高积木:递归组合实现推理泛化
来源:https://huggingface.co/papers/2606.12373 作者:
,
,
,
,
,
,
,
,
,
摘要
递归自动组合框架通过组合算子自动融合可验证环境,为语言模型的可扩展强化学习提供了新途径。
强化学习 (https://huggingface.co/papers?q=Reinforcement%20Learning) 与可验证环境 (https://huggingface.co/papers?q=verifiable%20environments) 的结合已成为增强大型语言模型 (https://huggingface.co/papers?q=Large%20Language%20Models) (LLMs) 推理能力的有效方法。虽然先前研究表明扩展环境数量可以提升强化学习性能,但现有的人工或独立构建方法受限于线性扩展的瓶颈,从而阻碍了可扩展的推理泛化。本文提出 RACES(递归自动环境扩展组合框架),将可验证环境 (https://huggingface.co/papers?q=verifiable%20environments) 视为可递归组装的组合式构建模块。关键洞察在于:当一个环境的余域(输出类型)与另一个环境的定义域(输入类型)匹配时,它们可以自动融合为新的可验证环境,从而实现递归组合 (https://huggingface.co/papers?q=recursive%20composition)。RACES 实现了 300 个独立环境,并定义了一组组合算子 (https://huggingface.co/papers?q=composition%20 operators)(顺序组合 (https://huggingface.co/papers?q=SEQUENTIAL)、并行组合 (https://huggingface.co/papers?q=PARALLEL)、排序 (https://huggingface.co/papers?q=SORT) 和选择 (https://huggingface.co/papers?q=SELECT)),这些算子能诱导出多样化的推理模式。大量实验表明,在这些组合环境上进行强化学习训练能持续增强推理泛化能力。具体而言,RACES 使 DeepSeek-R1-Distill-Qwen-14B 在六个基准测试中平均提升 3.1 分(从 48.2 升至 51.3),并将 Qwen3-14B 的性能从 58.8 提升至 61.1,这些基准测试在训练环境构建过程中均未见过。此外,RACES 仅使用 50 个基础环境即达到了与使用 300 个独立环境训练相当的性能,显示出显著的环境利用效率。
查看 arXiv 页面 (https://arxiv.org/abs/2606.12373) 查看 PDF (https://arxiv.org/pdf/2606.12373) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.12373)
引用本文的模型0
暂无模型引用此论文
在模型 README.md 中引用 arxiv.org/abs/2606.12373 即可从本页链接。
引用本文的数据集0
暂无数据集引用此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.12373 即可从本页链接。
引用本文的 Spaces0
暂无 Space 引用此论文
在 Space README.md 中引用 arxiv.org/abs/2606.12373 即可从本页链接。
包含本文的收藏集0
暂无收藏集包含此论文
添加此论文到收藏 (https://huggingface.co/new-collection) 即可从本页链接。
相似文章
学习构建环境:通过可验证环境合成实现自我进化推理强化学习
本文提出EvoEnv,一种让语言模型通过强化学习构建可验证的Python环境以实现自我改进的方法,在Qwen3-4B-Thinking上取得了3.3%的相对提升。
TRON:面向视觉推理强化学习的目标化规则可验证在线环境
TRON 提出了一种可扩展的在线环境,用于视觉推理强化学习,可生成无限多样且答案可验证的训练实例,在多个多模态基准上展现出持续的性能提升。
从受训者到训练者:LLM为多智能体推理强化学习设计的训练环境
本文介绍了LLM-as-Environment-Engineer框架,该框架使LLM能够为多智能体推理任务中的强化学习设计自己的训练环境,实现自我改进训练,其性能超越更大的专有模型。
组合合成:通过原子分解与重组扩展代码RLVR
介绍原子分解与重组(ADR),一种通过分解和重组原子元素来生成新颖且具有挑战性的可验证代码任务的框架,从而为大型语言模型实现可扩展的基于可验证奖励的强化学习。
大型语言模型中的交互推理评估:基于可执行游戏的分层基准
本文介绍了一个用于推理评估的多轮交互框架,其中大型语言模型需要查询隐藏环境并整合部分观察结果。该框架实例化为一个包含474个可执行游戏、跨五个难度级别的基准,展示了区分能力并揭示了推理差异。