可验证环境是乐高积木：推理泛化的递归组合

Hugging Face Daily Papers 2026/06/10 00:00 论文

摘要

本文提出RACES，一种递归自动组合框架，将可验证环境视为可组合的构建块，以扩展LLM的强化学习规模，通过组合算子实现高效的推理泛化。

基于可验证环境的强化学习（RL）已成为提升大语言模型（LLM）推理能力的有效方法。尽管已有研究表明扩展环境数量能改善RL性能，但现有的人工或个体构建方法受限于线性扩展瓶颈，阻碍了可扩展的推理泛化。本文提出RACES（Recursive Automated Composition for Environment Scaling，即递归自动环境组合扩展框架），该框架将可验证环境概念化为可递归组装的可组合构建块。其关键洞察在于：当某个环境的余定义域（输出类型）与另一环境的定义域（输入类型）匹配时，两者可自动融合为新的可验证环境，从而实现递归组合。RACES基于300个独立环境实现，定义了一组组合算子（SEQUENTIAL、PARALLEL、SORT和SELECT），这些算子能衍生出多样的推理模式。大量实验表明，在这些复合环境上的RL训练能持续增强推理泛化能力。具体而言，RACES使DeepSeek-R1-Distill-Qwen-14B在六个基准测试（这些基准在训练环境构建阶段不可见）上平均提升3.1分（从48.2升至51.3），并将Qwen3-14B的性能从58.8提升至61.1。此外，RACES仅使用50个基础环境即可达到与在300个独立环境下训练相当的性能，展现了显著的环境利用效率。

查看原文

查看缓存全文

缓存时间: 2026/06/11 13:39

论文页面 - 可验证环境如同乐高积木：递归组合实现推理泛化

来源：https://huggingface.co/papers/2606.12373 作者：

摘要

递归自动组合框架通过组合算子自动融合可验证环境，为语言模型的可扩展强化学习提供了新途径。

强化学习 (https://huggingface.co/papers?q=Reinforcement%20Learning) 与可验证环境 (https://huggingface.co/papers?q=verifiable%20environments) 的结合已成为增强大型语言模型 (https://huggingface.co/papers?q=Large%20Language%20Models) (LLMs) 推理能力的有效方法。虽然先前研究表明扩展环境数量可以提升强化学习性能，但现有的人工或独立构建方法受限于线性扩展的瓶颈，从而阻碍了可扩展的推理泛化。本文提出 RACES（递归自动环境扩展组合框架），将可验证环境 (https://huggingface.co/papers?q=verifiable%20environments) 视为可递归组装的组合式构建模块。关键洞察在于：当一个环境的余域（输出类型）与另一个环境的定义域（输入类型）匹配时，它们可以自动融合为新的可验证环境，从而实现递归组合 (https://huggingface.co/papers?q=recursive%20composition)。RACES 实现了 300 个独立环境，并定义了一组组合算子 (https://huggingface.co/papers?q=composition%20 operators)（顺序组合 (https://huggingface.co/papers?q=SEQUENTIAL)、并行组合 (https://huggingface.co/papers?q=PARALLEL)、排序 (https://huggingface.co/papers?q=SORT) 和选择 (https://huggingface.co/papers?q=SELECT)），这些算子能诱导出多样化的推理模式。大量实验表明，在这些组合环境上进行强化学习训练能持续增强推理泛化能力。具体而言，RACES 使 DeepSeek-R1-Distill-Qwen-14B 在六个基准测试中平均提升 3.1 分（从 48.2 升至 51.3），并将 Qwen3-14B 的性能从 58.8 提升至 61.1，这些基准测试在训练环境构建过程中均未见过。此外，RACES 仅使用 50 个基础环境即达到了与使用 300 个独立环境训练相当的性能，显示出显著的环境利用效率。

查看 arXiv 页面 (https://arxiv.org/abs/2606.12373) 查看 PDF (https://arxiv.org/pdf/2606.12373) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.12373)

引用本文的模型0

暂无模型引用此论文

在模型 README.md 中引用 arxiv.org/abs/2606.12373 即可从本页链接。

引用本文的数据集0

暂无数据集引用此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.12373 即可从本页链接。

引用本文的 Spaces0

暂无 Space 引用此论文

在 Space README.md 中引用 arxiv.org/abs/2606.12373 即可从本页链接。

包含本文的收藏集0

暂无收藏集包含此论文

添加此论文到收藏 (https://huggingface.co/new-collection) 即可从本页链接。

可验证环境是乐高积木：推理泛化的递归组合

论文页面 - 可验证环境如同乐高积木：递归组合实现推理泛化

摘要

引用本文的模型0

引用本文的数据集0

引用本文的 Spaces0

包含本文的收藏集0

相似文章

学习构建环境：通过可验证环境合成实现自我进化推理强化学习

TRON：面向视觉推理强化学习的目标化规则可验证在线环境

从受训者到训练者：LLM为多智能体推理强化学习设计的训练环境

组合合成：通过原子分解与重组扩展代码RLVR

大型语言模型中的交互推理评估：基于可执行游戏的分层基准

提交意见反馈