RubricEM:基于量规引导策略分解,超越可验证奖励的元强化学习

Hugging Face Daily Papers 论文

摘要

本文介绍了 RubricEM,这是一个强化学习框架,它利用量规引导的策略分解和基于反思的元策略进化,为长篇任务训练深度研究智能体。所得到的 RubricEM-8B 模型通过利用阶段感知规划和更密集的语义反馈,在长篇研究基准测试中表现出强劲的性能。

训练深度研究智能体(即能够规划、搜索、评估证据并综合长篇报告的系統)将强化学习推向了可验证奖励范畴之外。它们的输出缺乏真实答案(ground-truth),其轨迹跨越了多个工具增强的决策,而标准的后训练在将过往尝试转化为可复用经验方面提供的机制寥寥无几。在本研究中,我们认为量规不应仅仅作为最终答案的评估者,而应作为规范策略执行、裁判反馈和智能体记忆的共享接口。基于这一观点,我们引入了 RubricEM,这是一个量规引导的强化学习框架,结合了分阶段策略分解和基于反思的元策略进化。RubricEM 首先通过让规划、证据收集、审查和综合等过程依赖于自生成的量规,使研究轨迹具备阶段感知能力。随后,它通过阶段结构化 GRPO(Stage-Structured GRPO)进行信用分配,利用分阶段的量规判断为长视野优化提供更密集的语义反馈。与此同时,RubricEM 训练一个共享骨干网络的反思元策略,将经过评估的轨迹提炼为可复用的、基于量规的指导信息,以服务于未来的尝试。所得到的 RubricEM-8B 在四个长篇研究基准测试中均取得了优异表现,优于同类开源模型,并接近专有深度研究系统的水平。除了最终性能外,我们还进行了详尽的分析,以深入理解 RubricEM 的关键要素。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/13 04:13

Paper page - RubricEM: 超越可验证奖励的基于评分标准引导的策略分解元强化学习

Source: https://huggingface.co/papers/2605.10899 Authors:

,

,

,

,

,

,

,

,

,

,

Abstract

使用 RubricEM 框架训练的深度学习代理在长篇研究任务中表现出色,这得益于其采用评分标准引导的强化学习、阶段感知规划以及基于反思的元策略进化。

训练深度学习代理——即那些能够规划、搜索、评估证据并综合生成长篇报告的系统——将强化学习推向了可验证奖励机制之外。它们的输出缺乏地面真值(ground-truth)答案,其轨迹跨越了众多工具增强型决策,而标准的后训练过程几乎没有机制将过去的尝试转化为可复用的经验。在本研究中,我们认为评分标准不应仅作为最终答案的评估者,而应作为结构化的共享接口,用于规范策略执行、评判反馈以及代理记忆。基于这一观点,我们提出了 RubricEM,这是一个评分标准引导的强化学习框架,它结合了阶段性策略分解与基于反思的元策略进化。RubricEM 首先使研究轨迹具备阶段感知能力,通过自我生成的评分标准来条件化规划、证据收集、审查和综合过程。随后,它利用 Stage-Structured GRPO 进行信用分配,该方法使用阶段性评分标准判断为长视距优化提供更密集的语义反馈。与此同时,RubricEM 训练了一个共享骨干网络的反思元策略,将经过评判的轨迹提炼为可复用的、以评分标准为指导的指引,供未来尝试使用。最终得到的 RubricEM-8B 在四个长篇研究基准测试中均表现出强劲的性能,优于可比开源模型,并接近专有深度研究系统。除了最终性能外,我们还进行了详尽的分析以理解 RubricEM 的关键组成要素。

View arXiv page (https://arxiv.org/abs/2605.10899)View PDF (https://arxiv.org/pdf/2605.10899)Add to collection (https://huggingface.co/login?next=%2Fpapers%2F2605.10899)

Get this paper in your agent:

hf papers read 2605\.10899

Don’t have the latest CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

Models citing this paper0

No model linking this paper

Cite arxiv.org/abs/2605.10899 in a model README.md to link it from this page.

Datasets citing this paper0

No dataset linking this paper

Cite arxiv.org/abs/2605.10899 in a dataset README.md to link it from this page.

Spaces citing this paper0

No Space linking this paper

Cite arxiv.org/abs/2605.10899 in a Space README.md to link it from this page.

Collections including this paper0

No Collection including this paper

Add this paper to acollection (https://huggingface.co/new-collection)to link it from this page.

相似文章

C2:基于二元偏好的可扩展评分增强奖励建模

Hugging Face Daily Papers

C2 提出了一种可扩展的评分增强奖励建模框架,该框架仅通过二元偏好训练一个协作的评分生成器和一个批判性验证器,无需昂贵的评分标注,同时在 RM-Bench 上实现了最高 6.5 分的提升。

基于评分标准的强化学习中的奖励黑客问题

Hugging Face Daily Papers

本文研究了基于评分标准的强化学习中的奖励黑客现象,分析了训练验证器与评估指标之间的分歧。文章提出了一种针对“自我内化差距”的诊断方法,并证明更强的验证能力虽然能减少但无法完全消除奖励黑客问题。

基于评分细则的在策略蒸馏

Hugging Face Daily Papers

本文提出了 ROPD,一种基于评分细则的在策略蒸馏框架,相比传统的基于 logits 的方法,该框架在样本效率上表现更优。它通过使用结构化的语义评分细则而非教师 logits,实现了黑盒场景下的模型对齐。