超越评分准则：面向奖励建模的探索引导评估技能

arXiv cs.CL 2026/06/08 04:00 论文

摘要

Eval-Skill 是一种探索引导方法，可合成为奖励建模的可复用评估技能，在 RewardBench 2 上相比现有骨干模型取得了显著提升。

arXiv:2606.07040v1 公告类型：新摘要：开放式奖励建模需要评判者能够在无法获得可验证答案时遵循微妙且特定领域的偏好。现有的基于评分准则的方法通常通过为每个查询在线生成准则来解决这一问题，但额外的生成步骤会增加推理开销，并可能产生僵化或偏离的指导。我们引入了 Eval-Skill，这是一种探索引导方法，可合成为奖励建模的可复用评估技能，并将奖励指导重构为上下文演化，而非参数训练或逐查询准则生成。Eval-Skill 仅使用每个领域 100 个案例进行技能演化，通过两个渐进阶段（工作流生成后接原则生成）合成可复用的领域级评估技能，并在两个阶段中交错进行探索与选择。技能生成后，直接注入评判者的上下文。在多个 RM 基准测试中，Eval-Skill 持续改进不同的评判骨干模型；在 RewardBench 2 上，相比原始评判，每个主要骨干模型均取得了显著提升（Qwen3-8B 提升 13.44%，DeepSeek-V4-Flash 提升 18.51%）。对演化时间缩放、泛化性和可迁移性的进一步分析表明，紧凑的评估技能为基于 LLM 的评估提供了一种高效的新范式。代码可在 https://github.com/xing-stellus-yue/Eval-Skill 获取。

查看原文

查看缓存全文

缓存时间: 2026/06/08 09:21

# 超越评分标准：面向奖励建模的探索引导评估技能

来源：https://arxiv.org/abs/2606.07040  
查看 PDF（https://arxiv.org/pdf/2606.07040）

> 摘要：开放式奖励建模需要评判者能够遵循细微且领域特定的偏好，而这类偏好通常在可验证答案缺失时显现。现有的基于评分标准的方法通常通过为每个查询在线生成标准来解决这一问题，但额外的生成步骤会增加推理开销，并产生呆板或失配的指导。我们提出 Eval-Skill，一种探索引导方法，该方法合成了可复用的评估技能用于奖励建模，并将奖励引导重新定义为上下文演化，而非参数训练或逐查询的评标标准生成。仅需每个领域 100 个案例用于技能演化，Eval-Skill 通过两个渐进阶段——工作流生成后接原则生成——并结合两个阶段间交错的探索与选择，合成可复用的领域级评估技能。一旦生成，技能会被直接注入评判者上下文。在多个奖励建模基准上，Eval-Skill 持续提升不同评判者骨干的性能；在 RewardBench 2 上，每个主要骨干在原始评判基础上均获得了显著提升（Qwen3-8B 提升 13.44%，DeepSeek-V4-Flash 提升 18.51%）。针对演化时间扩展性、泛化性和可迁移性的进一步分析表明，紧凑的评估技能为基于 LLM 的评估提供了一种高效的新范式。代码可从以下网址获取：此 HTTPS 链接（https://github.com/xing-stellus-yue/Eval-Skill）。

## 提交历史

来自：邢悦 [查看电子邮件（https://arxiv.org/show-email/999bbde3/2606.07040）] **[v1]** 2026 年 6 月 5 日星期五 08:34:06 UTC（8,904 KB）

超越评分准则：面向奖励建模的探索引导评估技能

相似文章

Skill-RM: 通过智能体技能统一异构评估标准

RubricEM：基于量规引导策略分解，超越可验证奖励的元强化学习

C2：基于二元偏好的可扩展评分增强奖励建模

智能体技能评估与演进：框架与基准

SkillEvolBench：从情景经验到程序技能的进化基准测试

提交意见反馈