超越评分准则:面向奖励建模的探索引导评估技能
摘要
Eval-Skill 是一种探索引导方法,可合成为奖励建模的可复用评估技能,在 RewardBench 2 上相比现有骨干模型取得了显著提升。
arXiv:2606.07040v1 公告类型:新
摘要:开放式奖励建模需要评判者能够在无法获得可验证答案时遵循微妙且特定领域的偏好。现有的基于评分准则的方法通常通过为每个查询在线生成准则来解决这一问题,但额外的生成步骤会增加推理开销,并可能产生僵化或偏离的指导。我们引入了 Eval-Skill,这是一种探索引导方法,可合成为奖励建模的可复用评估技能,并将奖励指导重构为上下文演化,而非参数训练或逐查询准则生成。Eval-Skill 仅使用每个领域 100 个案例进行技能演化,通过两个渐进阶段(工作流生成后接原则生成)合成可复用的领域级评估技能,并在两个阶段中交错进行探索与选择。技能生成后,直接注入评判者的上下文。在多个 RM 基准测试中,Eval-Skill 持续改进不同的评判骨干模型;在 RewardBench 2 上,相比原始评判,每个主要骨干模型均取得了显著提升(Qwen3-8B 提升 13.44%,DeepSeek-V4-Flash 提升 18.51%)。对演化时间缩放、泛化性和可迁移性的进一步分析表明,紧凑的评估技能为基于 LLM 的评估提供了一种高效的新范式。代码可在 https://github.com/xing-stellus-yue/Eval-Skill 获取。
查看缓存全文
缓存时间: 2026/06/08 09:21
# 超越评分标准:面向奖励建模的探索引导评估技能 来源:https://arxiv.org/abs/2606.07040 查看 PDF(https://arxiv.org/pdf/2606.07040) > 摘要:开放式奖励建模需要评判者能够遵循细微且领域特定的偏好,而这类偏好通常在可验证答案缺失时显现。现有的基于评分标准的方法通常通过为每个查询在线生成标准来解决这一问题,但额外的生成步骤会增加推理开销,并产生呆板或失配的指导。我们提出 Eval-Skill,一种探索引导方法,该方法合成了可复用的评估技能用于奖励建模,并将奖励引导重新定义为上下文演化,而非参数训练或逐查询的评标标准生成。仅需每个领域 100 个案例用于技能演化,Eval-Skill 通过两个渐进阶段——工作流生成后接原则生成——并结合两个阶段间交错的探索与选择,合成可复用的领域级评估技能。一旦生成,技能会被直接注入评判者上下文。在多个奖励建模基准上,Eval-Skill 持续提升不同评判者骨干的性能;在 RewardBench 2 上,每个主要骨干在原始评判基础上均获得了显著提升(Qwen3-8B 提升 13.44%,DeepSeek-V4-Flash 提升 18.51%)。针对演化时间扩展性、泛化性和可迁移性的进一步分析表明,紧凑的评估技能为基于 LLM 的评估提供了一种高效的新范式。代码可从以下网址获取:此 HTTPS 链接(https://github.com/xing-stellus-yue/Eval-Skill)。 ## 提交历史 来自:邢悦 [查看电子邮件(https://arxiv.org/show-email/999bbde3/2606.07040)] **[v1]** 2026 年 6 月 5 日星期五 08:34:06 UTC(8,904 KB)
相似文章
Skill-RM: 通过智能体技能统一异构评估标准
Skill-RM 提出了一种统一的奖励建模框架,将奖励计算视为结构化的智能体任务,实现了动态证据聚合和跨多种应用的一致评估,优于传统的评判基线。
RubricEM:基于量规引导策略分解,超越可验证奖励的元强化学习
本文介绍了 RubricEM,这是一个强化学习框架,它利用量规引导的策略分解和基于反思的元策略进化,为长篇任务训练深度研究智能体。所得到的 RubricEM-8B 模型通过利用阶段感知规划和更密集的语义反馈,在长篇研究基准测试中表现出强劲的性能。
C2:基于二元偏好的可扩展评分增强奖励建模
C2 提出了一种可扩展的评分增强奖励建模框架,该框架仅通过二元偏好训练一个协作的评分生成器和一个批判性验证器,无需昂贵的评分标注,同时在 RM-Bench 上实现了最高 6.5 分的提升。
智能体技能评估与演进:框架与基准
本综述系统性地审视了智能体系统的技能演进与评估,将演进归类为四种范式,并分析了六个以技能为中心的基准类别,以识别结构性差距和开放方向。
SkillEvolBench:从情景经验到程序技能的进化基准测试
SkillEvolBench 是一个诊断性基准,用于评估大语言模型代理是否能够将情景经验提炼为可重用的程序技能。它包含六个环境中的180个任务,并发现当前代理通常难以形成稳健的可重用技能,原始轨迹重用往往优于提炼后的技能。