科学写作评估的奖励建模

arXiv cs.CL 论文

摘要

本文提出 SciRM,一种经济高效的开源奖励模型,通过两阶段训练框架专门用于评估科学写作,该框架优化了评估偏好和推理能力。这些模型可以泛化到多种科学写作任务,无需任务特定的重新训练,解决了现有基于 LLM 的评判器在特定领域评估标准上的局限性。

arXiv:2601.11374v2 公告类型:替换 摘要:科学写作是一项专业领域的任务,需要深层领域知识、特定任务要求以及利用领域知识满足任务规范的推理能力。虽然科学文本生成已被广泛研究,但其评估仍然是一个具有挑战性的开放问题。开发能够可靠部署以评估多样化开放式科学写作任务同时遵守其独特要求的模型至关重要。然而,现有的基于 LLM 的评判器和奖励模型主要针对具有固定评分标准和评估标准的通用基准进行优化。因此,在解释与任务相关且多层面的标准时,它们往往无法对科学领域的稀疏知识进行推理。此外,为每个单独的任务进行微调成本高昂,在资源有限的设置中不切实际。为了弥补这些差距,我们提出了专门用于科学写作评估的经济高效的开源奖励模型。我们引入了一个两阶段训练框架,首先优化科学评估偏好,然后完善推理能力。我们的多维度评估设计和跨多样化任务的联合训练实现了细粒度评估,以及对动态标准和评分标准的鲁棒性。实验分析表明,我们的训练方案显著改进了基于 LLM 的科学写作评估。我们的模型有效泛化到不同任务以及之前未见过的科学写作评估设置,允许单个训练的评估器被重复使用,无需特定任务的重新训练。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 08:31

# 科学文献写作评估的奖励模型

来源:https://arxiv.org/html/2601.11374

Furkan Şahinuç¹,², Subhabrata Dutta¹, Iryna Gurevych¹,²

¹Ubiquitous Knowledge Processing Lab (UKP Lab) 计算机科学系和黑森人工智能中心 (hessian.AI) 达姆施塔特工业大学

²Konrad Zuse 学习与智能系统卓越学校 (ELIZA)

www.ukp.tu-darmstadt.de (https://arxiv.org/html/2601.11374v2/www.ukp.tu-darmstadt.de)

###### 摘要

科学文献写作是一项专家级任务,需要深厚的领域知识、特定任务的需求以及利用领域知识来满足任务规范的推理能力。虽然科学文本生成已被广泛研究,但其评估仍然是一个具有挑战性的开放问题。关键是要开发能够可靠地用于评估多样化、开放式科学写作任务并遵守其不同要求的模型。然而,现有的基于大语言模型(LLM)的评判者和奖励模型主要针对具有固定评分标准和评估准则的通用基准进行优化。因此,当解释依赖任务和多方面准则时,它们经常无法对科学领域的稀疏知识进行推理。此外,为每个单独任务微调成本高且在低资源设置中不切实际。为了弥补这些差距,我们提出了专为科学文献评估量身定制的低成本、开源奖励模型。我们引入了一个两阶段训练框架,首先优化科学评估偏好,然后完善推理能力。我们的多方面评估设计和跨多样化任务的联合训练实现了细粒度评估,对动态准则和评分标准具有稳健性。实验分析表明,我们的训练方案显著改进了基于LLM的科学文献评估。我们的模型能够有效地跨任务泛化,适用于以前未见过的科学文献评估设置,允许单个训练好的评估器在不进行任务特定再训练的情况下重复使用。我们公开发布代码¹ GitHub: UKPLab/acl2026-expert-rm (https://github.com/UKPLab/acl2026-expert-rm) 和数据² Data: TUdatalib (https://tudatalib.ulb.tu-darmstadt.de/handle/tudatalib/4980)。

## 1 引言

由于大语言模型(LLM)具有强大的文本生成能力,其在科学文本生成中的应用,如相关工作生成、审稿生成和论文修改,最近获得了越来越多的关注 Li and Ouyang (2024); Liang et al. (2024); Afzal et al. (2026)。然而,没有适当的评估,很难评估生成文本的准确性和可靠性。因此,评估方面的局限性可能会阻碍整个开发流程。由于科学写作任务具有多样化的、特定于任务的需求,开发合适的评估框架是一个具有挑战性的问题。为每个单独任务训练评估器成本高昂,在某些情况下由于数据可用性有限而不可行。LLM作为评判者的方法 Liu et al. (2023); Zheng et al. (2023) 是科学写作任务中最广泛采用的评估范式。然而,它们经常无法对给定的领域知识和特定任务的偏好进行推理。这促使需要建立一些机制,允许模型在推理时对显式评估指南(也称为宪法)进行推理并保持一致。推理时的自适应性对于Constitutional AI Bai et al. (2022) 等现有方法是一个主要挑战,该方法在训练期间内化固定宪法,因此无法轻易应用于多样化的评估任务集合。这种刚性在评估科学文本生成时是有问题的,因为评估指南甚至可能在不同的方面、任务或领域之间相互矛盾。

为了改进基于LLM的评判者的推理能力,训练奖励推理模型最近获得了关注 Ankner et al. (2024); Guo et al. (2025b); Chen et al. (2025, 2026); Wang et al. (2024)。然而,现有的奖励模型主要针对改进社区标准基准(如数学推理、指令跟随以及编码、有帮助性和安全性的人类偏好建模)的性能进行优化 Lambert et al. (2025); Malik et al. (2026); Frick et al. (2025)。因此,它们无法捕捉科学文献评估的细微需求。此外,绝大多数奖励模型以成对方式编码任务偏好,这阻止了基于显式特定任务准则的文本质量的独立评估。这类模型的另一个缺点是它们针对固定评分标准和准则进行优化。科学任务具有独特的特征;每个任务都需要不同于开放式创意写作任务的领域特定专业知识和评估动态 Chakrabarty et al. (2025)。即使对于同一科学产物,也可能从需要不同准则和标准的多个方面进行评估。然而,当将当前奖励模型应用于其他任务时,如果评估标准与训练期间看到的不同,这些模型会经历性能下降 Yang et al. (2024)。另一方面,Şahinuç et al. (2025) 提供了对专家领域任务多方面评估的见解。然而,他们的方法仅限于单个任务,其最准确的流程依赖于专有LLM,这限制了可扩展性并阻碍了跨多样化科学写作任务的泛化。

在这项工作中,我们采用奖励模型训练策略来增强LLM在科学写作任务的"评估什么"和"如何评估"方面的能力。具体来说,我们设计了以显式评估宪法为条件的奖励模型——一个准则和标签空间的结构化描述——在训练和推理期间都存在。此外,我们引入了一个两阶段优化过程,其中模型不仅学会遵循宪法,而且自反性地重新解释宪法以纠正和稳定自己的推理。这个过程涉及上下文偏好跟随和推理能力的联合优化,Lai et al. (2024) 认为这是使用强化学习训练的现代语言模型中缺失的部分。

### 贡献和发现:

我们引入了成本效益高的奖励模型 SciRM 和 SciRM-Ref,专门为科学文献评估设计 (C1)。我们采用两阶段强化学习来优化模型以实现 (1) 科学写作评估偏好和 (2) 推理能力,以更好地理解给定的评估准则,使模型能够显式地对动态指定的评估规则进行推理并忠实地遵守它们。(C2) 我们的模型不是产生单个汇总分数,而是跨多个方面评估科学产物。这种方法增强了评估的可靠性和可解释性 (C3)。我们精选和处理来自多样化源的数据集,并跨多个任务联合训练模型,以 (1) 提高对变化评分标准的稳健性和 (2) 增强模型的泛化能力 (C4)。

我们在图2中说明了管道的概览。我们最后在四个不同的科学写作任务上测试我们的模型:相关工作部分、论文审稿、新颖性总结评估和基于指令的论文修改,每个都具有不同的评估方面和评分标准。实验结果表明我们的两阶段训练方案显著提升了LLM的科学文献评估性能 (F1)。特别是,我们的第二阶段训练在需要强大推理能力的任务上带来了改进 (F2)。此外,我们的模型在不包含在训练中的任务上表现优于基线模型,表明我们模型的强大泛化和扩展能力 (F3)。

## 2 相关工作

### 2.1 科学文献评估

将LLM直接用作评估者是科学文献评估最直观的方法之一,因为它们可以灵活地根据各种任务设置进行提示,无需额外的训练开销 Liu et al. (2023); Zheng et al. (2023)。然而,以前的工作表明,基础LLM作为评判者的设置容易出现系统偏差和领域接地推理的失败 Li et al. (2024); Szymanski et al. (2025); Gao et al. (2025)。此外,科学文献评估数据集的相对稀缺也阻止了LLM在训练阶段对这些任务变得更加熟悉。

为了解决这些局限性,Jourdan et al. (2025) 专注于评估科学文本修改。他们强调在没有黄金参考的情况下,LLM作为评判者的方法难以掌握特定任务的评估方面。在补充方向上,Purkayastha et al. (2025) 根据称为"懒惰思维"模式的审稿人的常见错误对同行评审进行分类。他们分类方案的一个关键局限是,尽管某些审查句子适合多个错误类别,但数据集强制进行一对一标签分配。类似地,Sadallah et al. (2025) 介绍了一个直接评估基准,跨可操作性、基础、可验证性和有帮助性的方面衡量科学审查的效用。在处理不同任务时,Şahinuç et al. (2025) 为相关工作生成提出了一个细粒度评估框架。他们不是产生单一的总体分数,而是进行基于方面的评估。虽然他们的评估实现了与人类专家的强大一致性,但其实现仅限于相关工作生成任务。

### 2.2 评估调优模型

奖励建模对强化学习后训练的成功有重大影响。虽然可验证的奖励在计算上高效并在数学和编码任务中表现出强大性能 Wei et al. (2026),但许多复杂任务不适合直接可验证的奖励信号,例如写作质量或有帮助性。这些局限性和最近以推理为中心的模型在复杂任务上的成功 Guo et al. (2025a) 促进了奖励推理模型的发展 Ankner et al. (2024); Guo et al. (2025b); Chen et al. (2025, 2026); Wang et al. (2024)。

这类模型的主要目标是通过利用中间思考步骤在不可验证的任务中生成更可靠和准确的奖励。除了推理特征外,先前的工作还探索了改进长上下文理解 Tang et al. (2025)、集成外部文档 Ma et al. (2025) 以及在奖励建模设置中桥接逐点和成对评分范式 Whitehouse et al. (2026); Jian et al. (2025)。这些模型的主要缺点是它们针对标准奖励基准进行优化,这些基准不涉及任何科学写作任务。因此,它们努力适应不同的科学写作准则和评分。虽然有尝试自动生成特定任务的评估准则以及评估本身 Liu et al. (2025a, b); Liang et al. (2025),但生成的准则大多是表面层次的,与科学文献评估需求不匹配,这些需求高度具体、多样,并涉及领域专业知识。除了奖励模型之外,评估调优的LLM作为评判者的模型也存在。一般来说,这些模型不是为特定任务专门设计的,而是作为通用评判者模型设计的 Liu et al. (2023); Kim et al. (2024); Alexandru et al. (2025); Flow AI (2024); Shiwen et al. (2024)。这个特性提供了灵活性,允许它们在多样化的任务集合中使用。然而,由于它们不专门针对专家领域任务(如科学文献)进行设计,它们会经历性能下降。相比之下,我们的工作直接专注于科学文献的评估,并泛化到具有独特准则和评估架构的不同任务。

## 3 方法论

### 3.1 数据集

为了改进我们奖励模型的泛化能力...

相似文章

C2:基于二元偏好的可扩展评分增强奖励建模

Hugging Face Daily Papers

C2 提出了一种可扩展的评分增强奖励建模框架,该框架仅通过二元偏好训练一个协作的评分生成器和一个批判性验证器,无需昂贵的评分标注,同时在 RM-Bench 上实现了最高 6.5 分的提升。

使用评分奖励(Rubric Rewards)纠正LLM数学推理中的奇迹步骤

arXiv cs.CL

本文识别并解决了LLM数学推理中的‘奇迹步骤’问题——即无根据跳至正确答案的奖励篡改行为——通过提出评分奖励模型(RRM),一种面向过程的奖励函数,评估整个推理轨迹。RRM在AIME2024上实现了显著提升(Verified Pass@1024从26.7%提高至62.6%),并将奇迹步骤减少了71%。