RubricEM：基于量规引导策略分解，超越可验证奖励的元强化学习

Hugging Face Daily Papers 2026/05/11 00:00 论文

摘要

本文介绍了 RubricEM，这是一个强化学习框架，它利用量规引导的策略分解和基于反思的元策略进化，为长篇任务训练深度研究智能体。所得到的 RubricEM-8B 模型通过利用阶段感知规划和更密集的语义反馈，在长篇研究基准测试中表现出强劲的性能。

训练深度研究智能体（即能够规划、搜索、评估证据并综合长篇报告的系統）将强化学习推向了可验证奖励范畴之外。它们的输出缺乏真实答案（ground-truth），其轨迹跨越了多个工具增强的决策，而标准的后训练在将过往尝试转化为可复用经验方面提供的机制寥寥无几。在本研究中，我们认为量规不应仅仅作为最终答案的评估者，而应作为规范策略执行、裁判反馈和智能体记忆的共享接口。基于这一观点，我们引入了 RubricEM，这是一个量规引导的强化学习框架，结合了分阶段策略分解和基于反思的元策略进化。RubricEM 首先通过让规划、证据收集、审查和综合等过程依赖于自生成的量规，使研究轨迹具备阶段感知能力。随后，它通过阶段结构化 GRPO（Stage-Structured GRPO）进行信用分配，利用分阶段的量规判断为长视野优化提供更密集的语义反馈。与此同时，RubricEM 训练一个共享骨干网络的反思元策略，将经过评估的轨迹提炼为可复用的、基于量规的指导信息，以服务于未来的尝试。所得到的 RubricEM-8B 在四个长篇研究基准测试中均取得了优异表现，优于同类开源模型，并接近专有深度研究系统的水平。除了最终性能外，我们还进行了详尽的分析，以深入理解 RubricEM 的关键要素。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/13 04:13

Paper page - RubricEM: 超越可验证奖励的基于评分标准引导的策略分解元强化学习

Source: https://huggingface.co/papers/2605.10899 Authors:

Abstract

使用 RubricEM 框架训练的深度学习代理在长篇研究任务中表现出色，这得益于其采用评分标准引导的强化学习、阶段感知规划以及基于反思的元策略进化。

训练深度学习代理——即那些能够规划、搜索、评估证据并综合生成长篇报告的系统——将强化学习推向了可验证奖励机制之外。它们的输出缺乏地面真值（ground-truth）答案，其轨迹跨越了众多工具增强型决策，而标准的后训练过程几乎没有机制将过去的尝试转化为可复用的经验。在本研究中，我们认为评分标准不应仅作为最终答案的评估者，而应作为结构化的共享接口，用于规范策略执行、评判反馈以及代理记忆。基于这一观点，我们提出了 RubricEM，这是一个评分标准引导的强化学习框架，它结合了阶段性策略分解与基于反思的元策略进化。RubricEM 首先使研究轨迹具备阶段感知能力，通过自我生成的评分标准来条件化规划、证据收集、审查和综合过程。随后，它利用 Stage-Structured GRPO 进行信用分配，该方法使用阶段性评分标准判断为长视距优化提供更密集的语义反馈。与此同时，RubricEM 训练了一个共享骨干网络的反思元策略，将经过评判的轨迹提炼为可复用的、以评分标准为指导的指引，供未来尝试使用。最终得到的 RubricEM-8B 在四个长篇研究基准测试中均表现出强劲的性能，优于可比开源模型，并接近专有深度研究系统。除了最终性能外，我们还进行了详尽的分析以理解 RubricEM 的关键组成要素。

View arXiv page (https://arxiv.org/abs/2605.10899)View PDF (https://arxiv.org/pdf/2605.10899)Add to collection (https://huggingface.co/login?next=%2Fpapers%2F2605.10899)

Get this paper in your agent:

hf papers read 2605\.10899

Don’t have the latest CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

Models citing this paper0

No model linking this paper

Cite arxiv.org/abs/2605.10899 in a model README.md to link it from this page.

Datasets citing this paper0

No dataset linking this paper

Cite arxiv.org/abs/2605.10899 in a dataset README.md to link it from this page.

Spaces citing this paper0

No Space linking this paper

Cite arxiv.org/abs/2605.10899 in a Space README.md to link it from this page.

Collections including this paper0

No Collection including this paper

Add this paper to acollection (https://huggingface.co/new-collection)to link it from this page.

RubricEM：基于量规引导策略分解，超越可验证奖励的元强化学习

Paper page - RubricEM: 超越可验证奖励的基于评分标准引导的策略分解元强化学习

Abstract

Models citing this paper0

Datasets citing this paper0

Spaces citing this paper0

Collections including this paper0

相似文章

自动评分标准作为奖励：从隐性偏好到显式多模态生成准则

C2：基于二元偏好的可扩展评分增强奖励建模

DeltaRubric：通过联合规划与验证实现生成式多模态奖励建模

基于评分标准的强化学习中的奖励黑客问题

基于评分细则的在策略蒸馏

提交意见反馈