exploration-guided

标签

Cards List
#exploration-guided

超越评分准则:面向奖励建模的探索引导评估技能

arXiv cs.CL · 2026-06-08 缓存

Eval-Skill 是一种探索引导方法,可合成为奖励建模的可复用评估技能,在 RewardBench 2 上相比现有骨干模型取得了显著提升。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈