可验证环境是乐高积木:推理泛化的递归组合

Hugging Face Daily Papers 论文

摘要

本文提出RACES,一种递归自动组合框架,将可验证环境视为可组合的构建块,以扩展LLM的强化学习规模,通过组合算子实现高效的推理泛化。

基于可验证环境的强化学习(RL)已成为提升大语言模型(LLM)推理能力的有效方法。尽管已有研究表明扩展环境数量能改善RL性能,但现有的人工或个体构建方法受限于线性扩展瓶颈,阻碍了可扩展的推理泛化。本文提出RACES(Recursive Automated Composition for Environment Scaling,即递归自动环境组合扩展框架),该框架将可验证环境概念化为可递归组装的可组合构建块。其关键洞察在于:当某个环境的余定义域(输出类型)与另一环境的定义域(输入类型)匹配时,两者可自动融合为新的可验证环境,从而实现递归组合。RACES基于300个独立环境实现,定义了一组组合算子(SEQUENTIAL、PARALLEL、SORT和SELECT),这些算子能衍生出多样的推理模式。大量实验表明,在这些复合环境上的RL训练能持续增强推理泛化能力。具体而言,RACES使DeepSeek-R1-Distill-Qwen-14B在六个基准测试(这些基准在训练环境构建阶段不可见)上平均提升3.1分(从48.2升至51.3),并将Qwen3-14B的性能从58.8提升至61.1。此外,RACES仅使用50个基础环境即可达到与在300个独立环境下训练相当的性能,展现了显著的环境利用效率。
查看原文
查看缓存全文

缓存时间: 2026/06/11 13:39

论文页面 - 可验证环境如同乐高积木:递归组合实现推理泛化

来源:https://huggingface.co/papers/2606.12373 作者:

,

,

,

,

,

,

,

,

,

摘要

递归自动组合框架通过组合算子自动融合可验证环境,为语言模型的可扩展强化学习提供了新途径。

强化学习 (https://huggingface.co/papers?q=Reinforcement%20Learning) 与可验证环境 (https://huggingface.co/papers?q=verifiable%20environments) 的结合已成为增强大型语言模型 (https://huggingface.co/papers?q=Large%20Language%20Models) (LLMs) 推理能力的有效方法。虽然先前研究表明扩展环境数量可以提升强化学习性能,但现有的人工或独立构建方法受限于线性扩展的瓶颈,从而阻碍了可扩展的推理泛化。本文提出 RACES(递归自动环境扩展组合框架),将可验证环境 (https://huggingface.co/papers?q=verifiable%20environments) 视为可递归组装的组合式构建模块。关键洞察在于:当一个环境的余域(输出类型)与另一个环境的定义域(输入类型)匹配时,它们可以自动融合为新的可验证环境,从而实现递归组合 (https://huggingface.co/papers?q=recursive%20composition)。RACES 实现了 300 个独立环境,并定义了一组组合算子 (https://huggingface.co/papers?q=composition%20 operators)(顺序组合 (https://huggingface.co/papers?q=SEQUENTIAL)、并行组合 (https://huggingface.co/papers?q=PARALLEL)、排序 (https://huggingface.co/papers?q=SORT) 和选择 (https://huggingface.co/papers?q=SELECT)),这些算子能诱导出多样化的推理模式。大量实验表明,在这些组合环境上进行强化学习训练能持续增强推理泛化能力。具体而言,RACES 使 DeepSeek-R1-Distill-Qwen-14B 在六个基准测试中平均提升 3.1 分(从 48.2 升至 51.3),并将 Qwen3-14B 的性能从 58.8 提升至 61.1,这些基准测试在训练环境构建过程中均未见过。此外,RACES 仅使用 50 个基础环境即达到了与使用 300 个独立环境训练相当的性能,显示出显著的环境利用效率。

查看 arXiv 页面 (https://arxiv.org/abs/2606.12373) 查看 PDF (https://arxiv.org/pdf/2606.12373) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.12373)

引用本文的模型0

暂无模型引用此论文

在模型 README.md 中引用 arxiv.org/abs/2606.12373 即可从本页链接。

引用本文的数据集0

暂无数据集引用此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.12373 即可从本页链接。

引用本文的 Spaces0

暂无 Space 引用此论文

在 Space README.md 中引用 arxiv.org/abs/2606.12373 即可从本页链接。

包含本文的收藏集0

暂无收藏集包含此论文

添加此论文到收藏 (https://huggingface.co/new-collection) 即可从本页链接。

相似文章

组合合成:通过原子分解与重组扩展代码RLVR

Hugging Face Daily Papers

介绍原子分解与重组(ADR),一种通过分解和重组原子元素来生成新颖且具有挑战性的可验证代码任务的框架,从而为大型语言模型实现可扩展的基于可验证奖励的强化学习。