RubricEM:基于量规引导策略分解,超越可验证奖励的元强化学习
摘要
本文介绍了 RubricEM,这是一个强化学习框架,它利用量规引导的策略分解和基于反思的元策略进化,为长篇任务训练深度研究智能体。所得到的 RubricEM-8B 模型通过利用阶段感知规划和更密集的语义反馈,在长篇研究基准测试中表现出强劲的性能。
查看缓存全文
缓存时间: 2026/05/13 04:13
Paper page - RubricEM: 超越可验证奖励的基于评分标准引导的策略分解元强化学习
Source: https://huggingface.co/papers/2605.10899 Authors:
,
,
,
,
,
,
,
,
,
,
Abstract
使用 RubricEM 框架训练的深度学习代理在长篇研究任务中表现出色,这得益于其采用评分标准引导的强化学习、阶段感知规划以及基于反思的元策略进化。
训练深度学习代理——即那些能够规划、搜索、评估证据并综合生成长篇报告的系统——将强化学习推向了可验证奖励机制之外。它们的输出缺乏地面真值(ground-truth)答案,其轨迹跨越了众多工具增强型决策,而标准的后训练过程几乎没有机制将过去的尝试转化为可复用的经验。在本研究中,我们认为评分标准不应仅作为最终答案的评估者,而应作为结构化的共享接口,用于规范策略执行、评判反馈以及代理记忆。基于这一观点,我们提出了 RubricEM,这是一个评分标准引导的强化学习框架,它结合了阶段性策略分解与基于反思的元策略进化。RubricEM 首先使研究轨迹具备阶段感知能力,通过自我生成的评分标准来条件化规划、证据收集、审查和综合过程。随后,它利用 Stage-Structured GRPO 进行信用分配,该方法使用阶段性评分标准判断为长视距优化提供更密集的语义反馈。与此同时,RubricEM 训练了一个共享骨干网络的反思元策略,将经过评判的轨迹提炼为可复用的、以评分标准为指导的指引,供未来尝试使用。最终得到的 RubricEM-8B 在四个长篇研究基准测试中均表现出强劲的性能,优于可比开源模型,并接近专有深度研究系统。除了最终性能外,我们还进行了详尽的分析以理解 RubricEM 的关键组成要素。
View arXiv page (https://arxiv.org/abs/2605.10899)View PDF (https://arxiv.org/pdf/2605.10899)Add to collection (https://huggingface.co/login?next=%2Fpapers%2F2605.10899)
Get this paper in your agent:
hf papers read 2605\.10899
Don’t have the latest CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
Models citing this paper0
No model linking this paper
Cite arxiv.org/abs/2605.10899 in a model README.md to link it from this page.
Datasets citing this paper0
No dataset linking this paper
Cite arxiv.org/abs/2605.10899 in a dataset README.md to link it from this page.
Spaces citing this paper0
No Space linking this paper
Cite arxiv.org/abs/2605.10899 in a Space README.md to link it from this page.
Collections including this paper0
No Collection including this paper
Add this paper to acollection (https://huggingface.co/new-collection)to link it from this page.
相似文章
自动评分标准作为奖励:从隐性偏好到显式多模态生成准则
本文介绍了自动评分标准作为奖励(ARR)框架,该框架将隐性偏好知识外显化为多模态对齐的显式评分标准。文章提出了评分标准策略优化(RPO)以稳定策略梯度,在文生图和图像编辑任务中取得了更佳的性能。
C2:基于二元偏好的可扩展评分增强奖励建模
C2 提出了一种可扩展的评分增强奖励建模框架,该框架仅通过二元偏好训练一个协作的评分生成器和一个批判性验证器,无需昂贵的评分标注,同时在 RM-Bench 上实现了最高 6.5 分的提升。
DeltaRubric:通过联合规划与验证实现生成式多模态奖励建模
DeltaRubric 是一篇研究论文,介绍了一种使用单一多模态大语言模型(MLLM)的两步多模态偏好评估方法,通过联合规划与验证来提高奖励建模的可靠性。
基于评分标准的强化学习中的奖励黑客问题
本文研究了基于评分标准的强化学习中的奖励黑客现象,分析了训练验证器与评估指标之间的分歧。文章提出了一种针对“自我内化差距”的诊断方法,并证明更强的验证能力虽然能减少但无法完全消除奖励黑客问题。
基于评分细则的在策略蒸馏
本文提出了 ROPD,一种基于评分细则的在策略蒸馏框架,相比传统的基于 logits 的方法,该框架在样本效率上表现更优。它通过使用结构化的语义评分细则而非教师 logits,实现了黑盒场景下的模型对齐。