Reasoning Arena: 当可验证奖励不足时的追踪锦标赛

Hugging Face Daily Papers 论文

摘要

Reasoning Arena 通过使用追踪锦标赛和Bradley-Terry模型,从非多样化奖励组中生成有意义的梯度,从而改进了基于可验证奖励的强化学习,实现了更快的训练和更好的推理性能。

基于可验证奖励的强化学习 (RLVR, Reinforcement Learning with Verifiable Rewards) 已成为通过基于结果的监督来提升大型语言模型推理能力的主流范式。然而,可验证奖励在组级别上常常变得无信息量:当给定提示的所有采样追踪获得相同的奖励时,组相对优势估计不会提供梯度信号,即使这些追踪在推理质量上可能存在显著差异。我们提出Reasoning Arena,一种自适应训练框架,它将此类非多样化奖励组路由到评判系统,而不是丢弃它们。除了检查最终答案外,Reasoning Arena还构建追踪锦标赛,其中推理追踪被逐一比较,以揭示组内更细粒度的偏好,将推理质量转化为丰富的相对奖励信号。为了使奖励估计高效,而不是穷举每一对比较,每个新追踪都会针对一个动态更新的先前生成追踪池(作为锚点)进行评估,以有效建立相对排名。然后,我们在不完整的比较图上拟合Bradley-Terry模型,从而实现无需二次配对比较的可扩展强化学习集成。实验结果表明,在数学和编程竞赛基准测试中,Reasoning Arena平均比RLVR基线高出7.6%。通过将原本浪费的零优势样本转化为有用的梯度更新,我们的方法将训练加速了27%至41%,节省了近50%的生成计算量,并显著提升了整体推理性能。
查看原文
查看缓存全文

缓存时间: 2026/06/09 08:41

论文页面 - Reasoning Arena: Trace Tournaments When Verifiable Rewards Fall Short

来源: https://huggingface.co/papers/2606.09380

摘要

Reasoning Arena 通过使用轨迹锦标赛和 Bradley-Terry 模型,从非多样化奖励组中生成有意义的梯度,从而改进了基于可验证奖励的强化学习,带来更快的训练和更好的推理性能。

基于可验证奖励的强化学习(Reinforcement Learning with Verifiable Rewards,简称 RLVR)已成为通过结果导向监督(outcome-based supervision)提升大语言模型推理能力的主流范式。然而,可验证奖励在组级别上经常变得缺乏信息性:当某个提示的所有采样轨迹获得完全相同的奖励时,组相对优势估计(group-relative advantage estimation)无法提供任何梯度信号,即便这些轨迹在推理质量上可能差异显著。我们提出了 Reasoning Arena,一种自适应训练框架,它将这类非多样化奖励组导向评审系统(judge system)而不是直接丢弃它们。除了检查最终答案,Reasoning Arena 还构建了轨迹锦标赛(trace tournaments),通过两两直接比较推理轨迹来揭示组内的更细粒度偏好,从而将推理质量转化为丰富的相对奖励信号。为了提高奖励估计效率,我们并非穷举比较每一对,而是将每条新轨迹与一个小型、动态更新的已有轨迹池(作为锚点)进行比较,以高效建立相对排名。然后,我们在不完全比较图上拟合 Bradley-Terry 模型,从而在不进行二次级别两两比较的情况下实现可扩展的强化学习集成。实验结果表明,在竞赛数学和编程基准测试中,Reasoning Arena 平均比 RLVR 基线高出 7.6%。通过将原本被浪费的零优势样本转化为有用的梯度更新,我们的方法将训练速度提升了 27% 至 41%,节省了将近 50% 的生成计算量,并显著提高了整体推理性能。

查看arXiv页面 (https://arxiv.org/abs/2606.09380) 查看PDF (https://arxiv.org/pdf/2606.09380) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.09380)

在您的代理中获取此论文:

hf papers read 2606\.09380

没有最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.09380 以从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.09380 以从此页面链接。

引用此论文的 Spaces0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2606.09380 以从此页面链接。

包含此论文的收藏0

没有收藏包含此论文

将此论文添加到收藏 (https://huggingface.co/new-collection) 以从此页面链接。

相似文章

视频模型可通过可验证奖励进行推理

Hugging Face Daily Papers

VideoRLVR利用基于规则的奖励的强化学习,优化视频扩散模型以进行可验证推理任务,在约束满足的视频生成中取得了优于监督方法的性能。

Stratagem:通过轨迹调制博弈自博弈学习可迁移推理

Hugging Face Daily Papers

# 论文页面 - Stratagem:通过轨迹调制博弈自博弈学习可迁移推理 来源:[https://huggingface.co/papers/2604.17696](https://huggingface.co/papers/2604.17696) 作者:,,,,,,,,,, ## 摘要 STRATAGEM 通过引入推理可迁移性系数与演化奖励,鼓励抽象、跨领域模式而非博弈专用启发式,从而解决语言模型推理迁移受限的问题。博弈为开发通用推理能力提供了极具吸引力的范式。