Skill-RM: 通过智能体技能统一异构评估标准

Hugging Face Daily Papers 论文

摘要

Skill-RM 提出了一种统一的奖励建模框架,将奖励计算视为结构化的智能体任务,实现了动态证据聚合和跨多种应用的一致评估,优于传统的评判基线。

奖励模型(RMs)为LLM后训练提供关键反馈信号,尤其是在强化微调(RFT)和强化学习(RL)流程中。然而,当前的奖励评估依赖于异构标准,如基于规则的验证器、真实标注参考、程序化检查表和复杂评分标准,而统一整合所有类型证据的机制尚未被探索。为此,我们提出技能奖励模型(Skill-RM),一个统一框架,将奖励建模重新定义为可复用“奖励评估技能”的执行。通过将奖励计算视为结构化的智能体任务,Skill-RM提供一致的接口来编排异构资源,动态选择和聚合针对每个输入特定需求的证据。这种方法使奖励模型能够超越静态评估,确保跨不同任务的一致性和透明度。在奖励基准测试和下游应用(包括最佳N选和强化学习)上的大量实验表明,Skill-RM始终优于传统的评判基线。我们的发现表明,Skill-RM不仅为奖励建模提供了统一解决方案,而且通过战略性和动态的证据编排实现了更优性能。代码位于 https://github.com/Qwen-Applications/Skill-RM。
查看原文
查看缓存全文

缓存时间: 2026/06/09 08:41

论文页面 - Skill-RM:通过智能体技能统一异构评估标准

来源:https://huggingface.co/papers/2606.03980 作者:

,

,

,

,

,

,

,

,

,

,

,

摘要

Skill-RM 提出了一种统一的奖励建模框架,将奖励计算视为一项结构化的智能体任务,实现了动态证据聚合以及在多样化应用中的一致评估。

奖励模型(RM)为 LLM 后训练提供关键的反馈信号,特别是在强化微调(RFT)和强化学习(RL)流程中。然而,当前的奖励评估依赖于异构标准,例如基于规则的验证器、真实参考、程序清单和复杂评分标准,目前尚未有统一机制来整合所有类型的证据。为此,我们提出了 Skill Reward Model(Skill-RM),一种统一框架,将奖励建模重新表述为可复用奖励评估技能的执行过程。通过将奖励计算视为结构化智能体任务,Skill-RM 提供了一致的接口来协调异构资源,根据每个输入的具体需求动态选择和聚合证据。这种方法使奖励模型能够超越静态评估,确保在多样化任务中的一致性和透明度。在奖励基准测试和下游应用(包括 Best-of-N 选择和强化学习)上的大量实验表明,Skill-RM 始终优于传统的评判基线。我们的研究结果表明,Skill-RM 不仅为奖励建模提供了统一解决方案,还通过战略性和动态的证据编排实现了更优的性能。代码位于 https://github.com/Qwen-Applications/Skill-RM。

查看 arXiv 页面 (https://arxiv.org/abs/2606.03980)查看 PDF (https://arxiv.org/pdf/2606.03980)GitHub (https://github.com/Qwen-Applications/Skill-RM)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.03980)

在你的智能体中获取这篇论文:

hf papers read 2606\.03980

没有最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用这篇论文的模型 0

没有链接这篇论文的模型

在模型 README.md 中引用 arxiv.org/abs/2606.03980 以从本页链接它。

引用这篇论文的数据集 0

没有链接这篇论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2606.03980 以从本页链接它。

引用这篇论文的 Spaces 0

没有链接这篇论文的 Space

在 Space README.md 中引用 arxiv.org/abs/2606.03980 以从本页链接它。

包含这篇论文的集合 0

没有包含这篇论文的集合

将这篇论文添加到集合中以从本页链接它。

相似文章