Skill-RM: 通过智能体技能统一异构评估标准

Hugging Face Daily Papers 2026/06/02 00:00 论文

摘要

Skill-RM 提出了一种统一的奖励建模框架，将奖励计算视为结构化的智能体任务，实现了动态证据聚合和跨多种应用的一致评估，优于传统的评判基线。

奖励模型（RMs）为LLM后训练提供关键反馈信号，尤其是在强化微调（RFT）和强化学习（RL）流程中。然而，当前的奖励评估依赖于异构标准，如基于规则的验证器、真实标注参考、程序化检查表和复杂评分标准，而统一整合所有类型证据的机制尚未被探索。为此，我们提出技能奖励模型（Skill-RM），一个统一框架，将奖励建模重新定义为可复用“奖励评估技能”的执行。通过将奖励计算视为结构化的智能体任务，Skill-RM提供一致的接口来编排异构资源，动态选择和聚合针对每个输入特定需求的证据。这种方法使奖励模型能够超越静态评估，确保跨不同任务的一致性和透明度。在奖励基准测试和下游应用（包括最佳N选和强化学习）上的大量实验表明，Skill-RM始终优于传统的评判基线。我们的发现表明，Skill-RM不仅为奖励建模提供了统一解决方案，而且通过战略性和动态的证据编排实现了更优性能。代码位于 https://github.com/Qwen-Applications/Skill-RM。

查看原文

查看缓存全文

缓存时间: 2026/06/09 08:41

论文页面 - Skill-RM：通过智能体技能统一异构评估标准

来源：https://huggingface.co/papers/2606.03980 作者：

摘要

Skill-RM 提出了一种统一的奖励建模框架，将奖励计算视为一项结构化的智能体任务，实现了动态证据聚合以及在多样化应用中的一致评估。

奖励模型（RM）为 LLM 后训练提供关键的反馈信号，特别是在强化微调（RFT）和强化学习（RL）流程中。然而，当前的奖励评估依赖于异构标准，例如基于规则的验证器、真实参考、程序清单和复杂评分标准，目前尚未有统一机制来整合所有类型的证据。为此，我们提出了 Skill Reward Model（Skill-RM），一种统一框架，将奖励建模重新表述为可复用奖励评估技能的执行过程。通过将奖励计算视为结构化智能体任务，Skill-RM 提供了一致的接口来协调异构资源，根据每个输入的具体需求动态选择和聚合证据。这种方法使奖励模型能够超越静态评估，确保在多样化任务中的一致性和透明度。在奖励基准测试和下游应用（包括 Best-of-N 选择和强化学习）上的大量实验表明，Skill-RM 始终优于传统的评判基线。我们的研究结果表明，Skill-RM 不仅为奖励建模提供了统一解决方案，还通过战略性和动态的证据编排实现了更优的性能。代码位于 https://github.com/Qwen-Applications/Skill-RM。

查看 arXiv 页面 (https://arxiv.org/abs/2606.03980)查看 PDF (https://arxiv.org/pdf/2606.03980)GitHub (https://github.com/Qwen-Applications/Skill-RM)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.03980)

在你的智能体中获取这篇论文：

hf papers read 2606\.03980

没有最新 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用这篇论文的模型 0

没有链接这篇论文的模型

在模型 README.md 中引用 arxiv.org/abs/2606.03980 以从本页链接它。

引用这篇论文的数据集 0

没有链接这篇论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2606.03980 以从本页链接它。

引用这篇论文的 Spaces 0

没有链接这篇论文的 Space

在 Space README.md 中引用 arxiv.org/abs/2606.03980 以从本页链接它。

包含这篇论文的集合 0

没有包含这篇论文的集合

将这篇论文添加到集合中以从本页链接它。

Skill-RM: 通过智能体技能统一异构评估标准

论文页面 - Skill-RM：通过智能体技能统一异构评估标准

摘要

引用这篇论文的模型 0

引用这篇论文的数据集 0

引用这篇论文的 Spaces 0

包含这篇论文的集合 0

相似文章

Skill1：通过强化学习实现技能增强型智能体的统一进化

超越评分准则：面向奖励建模的探索引导评估技能

SkillMaster：迈向大语言模型智能体的自主技能掌握

SkillLearnBench：面向真实任务代理技能生成的持续学习方法基准

Skill0.5：面向智能体强化学习中分布外泛化的技能内化与利用联合框架

提交意见反馈