Skill-RM: 通过智能体技能统一异构评估标准
摘要
Skill-RM 提出了一种统一的奖励建模框架,将奖励计算视为结构化的智能体任务,实现了动态证据聚合和跨多种应用的一致评估,优于传统的评判基线。
查看缓存全文
缓存时间: 2026/06/09 08:41
论文页面 - Skill-RM:通过智能体技能统一异构评估标准
来源:https://huggingface.co/papers/2606.03980 作者:
,
,
,
,
,
,
,
,
,
,
,
摘要
Skill-RM 提出了一种统一的奖励建模框架,将奖励计算视为一项结构化的智能体任务,实现了动态证据聚合以及在多样化应用中的一致评估。
奖励模型(RM)为 LLM 后训练提供关键的反馈信号,特别是在强化微调(RFT)和强化学习(RL)流程中。然而,当前的奖励评估依赖于异构标准,例如基于规则的验证器、真实参考、程序清单和复杂评分标准,目前尚未有统一机制来整合所有类型的证据。为此,我们提出了 Skill Reward Model(Skill-RM),一种统一框架,将奖励建模重新表述为可复用奖励评估技能的执行过程。通过将奖励计算视为结构化智能体任务,Skill-RM 提供了一致的接口来协调异构资源,根据每个输入的具体需求动态选择和聚合证据。这种方法使奖励模型能够超越静态评估,确保在多样化任务中的一致性和透明度。在奖励基准测试和下游应用(包括 Best-of-N 选择和强化学习)上的大量实验表明,Skill-RM 始终优于传统的评判基线。我们的研究结果表明,Skill-RM 不仅为奖励建模提供了统一解决方案,还通过战略性和动态的证据编排实现了更优的性能。代码位于 https://github.com/Qwen-Applications/Skill-RM。
查看 arXiv 页面 (https://arxiv.org/abs/2606.03980)查看 PDF (https://arxiv.org/pdf/2606.03980)GitHub (https://github.com/Qwen-Applications/Skill-RM)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.03980)
在你的智能体中获取这篇论文:
hf papers read 2606\.03980
没有最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用这篇论文的模型 0
没有链接这篇论文的模型
在模型 README.md 中引用 arxiv.org/abs/2606.03980 以从本页链接它。
引用这篇论文的数据集 0
没有链接这篇论文的数据集
在数据集 README.md 中引用 arxiv.org/abs/2606.03980 以从本页链接它。
引用这篇论文的 Spaces 0
没有链接这篇论文的 Space
在 Space README.md 中引用 arxiv.org/abs/2606.03980 以从本页链接它。
包含这篇论文的集合 0
没有包含这篇论文的集合
将这篇论文添加到集合中以从本页链接它。
相似文章
Skill1:通过强化学习实现技能增强型智能体的统一进化
Skill1 是一个统一框架,通过共享的任务结果目标,训练单一策略以协同进化技能选择、利用与蒸馏。在 ALFWorld 和 WebShop 上的实验表明,该框架在复杂任务环境中优于现有的基线方法。
超越评分准则:面向奖励建模的探索引导评估技能
Eval-Skill 是一种探索引导方法,可合成为奖励建模的可复用评估技能,在 RewardBench 2 上相比现有骨干模型取得了显著提升。
SkillMaster:迈向大语言模型智能体的自主技能掌握
本文介绍了 SkillMaster,一种训练框架,使大语言模型智能体能够通过轨迹知情审查和反事实效用评估,自主地创建、优化和选择技能。
SkillLearnBench:面向真实任务代理技能生成的持续学习方法基准
SkillLearnBench 推出首个评估 LLM 代理持续技能学习的基准,覆盖 20 项真实任务,结果显示尚无方法全面领先,单纯扩大模型规模也无法保证技能提升。
Skill0.5:面向智能体强化学习中分布外泛化的技能内化与利用联合框架
Skill0.5是一种新颖的智能体强化学习框架,通过动态难度感知路由器将通用技能内化与任务特定技能利用相结合,改进了复杂任务环境中的分布外泛化能力,在ALFWorld和WebShop上的实验证明了其效果。