作者在环响应生成与评估:将作者专业知识和意图整合到同行评审回复中

arXiv cs.CL 论文

摘要

本文介绍了Re3Align数据集、REspGen框架和REspEval评估套件,用于同行评审中的作者在环响应生成,整合了作者专业知识和意图信号。该工作填补了NLP在科学反驳文章表述中的空白,提供了全面的数据集、可控的生成框架和多维度评估指标。

arXiv:2602.11173v2 公告类型:替换 摘要:作者回复(反驳)撰写是科学同行评审的关键阶段,需要投入大量作者精力。实际上,作者拥有领域专业知识、仅作者知晓的信息和应对策略——这些是作者专业知识和意图的具体体现——并寻求将这些信号整合到作者响应生成(ARG)中的NLP辅助。然而这种作者在环范式缺乏正式的NLP表述和系统研究:现有数据集没有提供细粒度的作者信号,现有ARG工作缺乏作者输入和控制,没有评估指标衡量响应对作者信号的反映和应对评审者关切的有效性。为填补这些空白,我们引入了:(i) Re3Align,首个大规模的评审-回复-修订三元组对齐数据集,其中修订作为作者信号的代理;(ii) REspGen,作者在环ARG框架,支持灵活的作者输入、多属性控制和评估引导的精化;(iii) REspEval,包含20+个指标的全面评估套件,涵盖输入利用、可控性、响应质量和篇章结构。使用最先进的大型语言模型的实验证明了作者输入和评估引导精化的优势、输入具体性对响应质量的影响,以及可控性-质量权衡。我们发布了数据集、生成和评估工具。
查看原文
查看缓存全文

缓存时间: 2026/04/20 08:32

# 在同行评审回复中整合作者专业知识和意图

来源:https://arxiv.org/html/2602.11173

## 作者参与循环的回复生成和评估:在同行评审回复中整合作者专业知识和意图

Qian Ruan, Iryna Gurevych
泛在知识处理实验室(UKP Lab)
计算机科学系和黑森人工智能中心(hessian.AI)
达姆施塔特工业大学
www.ukp.tu-darmstadt.de

###### 摘要

作者回复(反驳)写作是科学同行评审的关键阶段,需要作者付出大量努力。在实践中,作者拥有领域专业知识、仅作者知晓的信息和回复策略——这些是作者专业知识和意图的具体形式——并寻求将这些信号整合到作者回复生成(ARG)中的NLP辅助。然而,这种作者参与循环的范式缺乏正式的NLP表述和系统研究:没有数据集提供细粒度的作者信号,现有ARG工作缺乏作者输入和控制,也没有评估指标衡量回复对作者信号的反映和解决审稿人关切的有效性。为填补这些空白,我们引入:(i)Re3Align,第一个大规模的对齐审稿意见-回复-修订三元组数据集,其中修订代理作者信号;(ii)REspGen,支持灵活的作者输入、多属性控制和评估引导精化的作者参与循环ARG框架;以及(iii)REspEval,包含20多个指标的综合评估套件,涵盖输入利用、可控性、回复质量和话语。与最先进LLM的实验证明了作者输入和评估引导精化的优势,输入具体性对回复质量的影响,以及可控性-质量权衡。我们发布了数据集、生成和评估工具。

## 1 介绍

在这项工作中,我们贡献了:(1)REspGen,一个作者参与循环ARG框架,集成显式作者输入、可控的规划和长度,以及额外的论文上下文;(2)Re3Align,第一个用于建模作者信号的大规模审稿意见-回复-修订三元组数据集;以及(3)REspEval,包含四个维度20多个指标的综合回复评估框架。

作者回复(反驳)写作是科学同行评审的关键阶段,作者在此阶段解决审稿人的关切以寻求有利的接受决定。这一过程需要作者付出大量努力,使其成为一个很有前景但充满挑战的NLP任务。在实践中,作者通过利用领域专业知识和战略意图来撰写反驳。许多审稿人的关切只能使用仅作者知晓的信息来解决,例如计划的澄清(如图1中"脚本评估"的精确定义)、新进行的实验和设计原理。除了内容外,作者战略性地选择回复方式(修订、论证、延迟或承诺未来工作),并控制长度、语气和话语结构等属性。然而,先前的NLP研究将作者回复生成(ARG)视为通用的、仅基于审稿意见的文本生成问题,未能将这一实践正式化。我们通过将ARG重新表述为**作者参与循环**任务来弥合这一差距。

要实现这一目标,两个根本问题仍未得到解答:(1)应如何表述和基准测试作者参与循环ARG,以及如何向生成系统提供作者专业知识和意图?现有ARG研究仅依赖审稿意见,缺乏作者专业知识和意图,缺乏由数据和生成框架支持的系统研究。(2)生成的回复是否反映了作者提供的专业知识和意图,同时有效解决了审稿人的关切?这需要评估回复质量、事实基础、输入覆盖率以及对约束和计划的遵守情况。先前的ARG工作依赖于表面相似性或粗糙的质量标准,留下了这些维度未被支持。可控ARG仍未被探索,可控性和权衡的严格评估甚至在可控文本生成中也是一个开放的挑战。

由于数据稀缺,作者参与循环ARG研究进一步受阻。在现场反驳中收集作者信号由于实际和伦理限制很少可行。一个替代方案是使用论文修订来近似作者信号:在会议设置中,回复描述了稍后出现在修订论文中的计划更改,使得可以进行事后编辑提取来代理回复时的作者信号;在期刊设置中,回复基于已实施的修订进行论证。这需要*完整的论文记录*,包括原始和修订手稿、同行评审和真实作者回复,这仅在少数现有数据集中可用。更重要的是,现有资源缺乏在单个审稿人关切粒度上建模作者信号所需的细粒度注释,例如编辑分析、审稿意见-回复段落对齐和具体论文编辑的映射。

为应对这些挑战,我们引入**Re3Align**(§3),第一个作者参与循环ARG的大规模数据集,包括3.4k个完整论文记录、440k句级编辑注释和15k个对齐的审稿意见-回复-编辑三元组。我们进一步提议**REspGen**(§4),一个作者参与循环ARG框架,支持各种级别的作者输入特异性,并支持对回复规划和长度的可控生成,通过**REspEval**(§5)的迭代精化进行指导。REspEval提供20多个新颖指标,涵盖可控性、输入利用(事实基础和覆盖率)、回复质量(针对性、特异性和说服力)以及话语特征(语气-立场配置文件和转变)。最后,我们对五个最先进LLM在九种设置中进行实验,以系统地分析作者信号、输入特异性、属性控制和评估引导精化的影响(§6)。

我们的工作做出了四个关键贡献:

- •第一个包含丰富注释的审稿意见-回复-编辑三元组大型数据集,支持ARG任务的新表述
- •支持灵活作者输入、多属性控制和评估引导精化的作者参与循环ARG框架
- •包含20多个新颖指标的综合评估套件,用于可控性、输入利用、回复质量和话语
- •跨五个LLM和九种设置的广泛实验,揭示了在各种输入和控制下ARG行为的见解,以及跨维度权衡

这项工作提供了作者参与循环回复生成和评估的第一个系统正式化和研究,将作者专业知识和意图与NLP辅助联系起来,以支持有效和高效的作者回复写作。

## 2 相关工作

**作者回复生成**最近在NLP中作为科学同行评审中一项具有挑战性和鲜少探索的任务出现。早期关于作者回复的工作包括论证对提取和回复话语分析。实证研究进一步确定了有效回复的关键成功因素,包括明确的修订声明、高特异性、具体证据和适当的语气。最近的工作转向生成,涉及态度和主题引导生成以及多轮审稿意见-反驳对话的研究。然而,这些生成方法仅依赖审稿意见,产生缺乏具体细节的通用回复,尤其是那些需要作者专业知识的回复。评估仅限于相似性指标,忽视了回复多样性和实证研究中的更广泛成功因素。

如表1总结的,我们通过三种方式解决这些限制:(i)引入第一个大规模审稿意见、回复和对齐句级编辑的三元组数据集,将修订视为作者专业知识和意图的明确信号;(ii)将ARG表述为作者参与循环任务,通过显式输入和可控生成来整合作者专业知识和意图;(iii)提议包含20多个指标的综合评估套件,涵盖四个维度,超越基于相似性的评估。

| # 论文 | # 对 | # 编辑 | # 链接编辑 | # Re3三元组 |
|--------|------|-------|----------|-----------|
| EMNLP24 | 679 | 2,108 | 8,688 | 6,762 | 1,933 |
| PeerJ | 2,715 | 13,963 | 353,551 | 181,534 | 13,588 |
| 总计 | 3,394 | 16,071 | 439,798 | 198,296 | 15,521 |

表2:Re3Align数据集统计。报告的是论文数、对齐的审稿意见-回复对、注释的句级编辑、链接到对的编辑以及最终对齐三元组的数量。

**可控文本生成和评估**旨在将模型输出转向用户指定的约束。先前的工作主要关注单属性控制,包括长度、主题和情感,以及基于内容的控制,例如查询聚焦、实体中心和方面基础生成。最近的调查强调了同时进行多属性控制的持续挑战、可控性和生成质量之间的权衡,以及严格评估方法的缺乏。在ARG中,尽管作者需要战略性地控制回复构造同时整合自己的内容,但可控性仍未被探索。我们提供了ARG中可控性的第一项研究,检查对长度、话语规划和内容整合的控制。我们进一步引入了一个综合评估框架,具有细粒度指标,评估:(i)生成如何遵守单一和同时多属性控制;(ii)作者提供的内容如何有效整合;以及(iii)回复质量如何受到影响。

## 3 数据集构建:Re3Align

### 3.1 数据收集和预处理

我们的ARG框架需要能够捕获完整的审稿-修订-回复(Re3)过程的原始数据,包含真实人类文本。只有少数资源(如NLPEERv2的EMNLP24子集和MOPRD)提供同行评审、作者回复、原始提交和修订论文。EMNLP24从OpenReview提供同行评审和反驳讨论,我们将其组织成审稿人-作者讨论链,提取并合并连续的作者回复为单个回复。MOPRD提供来自PeerJ的数据,涵盖计算机科学、化学、物理和材料科学等多个科学领域。我们仅保留具有完整Re3记录的论文。最终语料库包括679篇EMNLP24论文和2,715篇PeerJ论文(表2),涵盖会议和期刊工作流。我们将每篇论文的版本、评论和回复分组到统一标识符下,并将其转换为增强句级节点的互文图(ITG)。

### 3.2 审稿意见-回复对对齐和修订注释

作者通常引用审稿意见来构造回复。为提取审稿意见-回复对,我们使用汇编的匹配算法将每个审稿意见句子与每个回复句子匹配,并合并最长的连续匹配以识别引用的审稿意见跨度。这些跨度随后用于分段回复,每个段落定义为跟在引用跨度后且先于下一个跨度之前的文本。一个说明性示例显示在图4中。应用质量过滤策略后,我们从EMNLP24和PeerJ分别获得2,108和13,963个审稿意见-回复段落对。对100对的人工验证确认了98%的对齐准确度。我们进一步应用最先进的修订分析模型来对齐论文版本之间的句级编辑,并用编辑操作和意图标记每个编辑。这些模型对对齐和操作标记达到90以上的F1,对编辑意图分类达到84.3 F1/85.6%准确度。总计,这产生了439,798个编辑。

### 3.3 Re3三元组对齐

对于每次提交,我们有原始论文D^t、修订论文D^(t+1)和审稿人-作者交换(C_k, A_k)。D^t和D^(t+1)中的句子分别表示为x_j^t和x_i^(t+1)。从前面的步骤,我们提取句级编辑e_ij = e(x_i^(t+1), x_j^t),具有f

相似文章

科学写作评估的奖励建模

arXiv cs.CL

本文提出 SciRM,一种经济高效的开源奖励模型,通过两阶段训练框架专门用于评估科学写作,该框架优化了评估偏好和推理能力。这些模型可以泛化到多种科学写作任务,无需任务特定的重新训练,解决了现有基于 LLM 的评判器在特定领域评估标准上的局限性。

DR^{3}-Eval: 迈向真实且可复现的深度研究评估

Hugging Face Daily Papers

DR³-Eval 是一个基准测试,用于评估深度研究代理在多模态、多文件报告生成中的表现,它通过真实的网络环境模拟和全面的评估框架,衡量信息召回、事实准确性、引用覆盖率、指令遵循和深度质量。

"Excuse me, may I say something..." CoLabScience,一个用于生物医学发现和大语言模型-专家协作的主动型AI助手

arXiv cs.CL

CoLabScience介绍了一个用于生物医学研究的主动型大语言模型助手,它使用PULI(正无标签学习干预)这一新颖的强化学习框架,在科学讨论中自主进行干预,决定何时以及如何提供上下文感知的见解。该工作还包括BSDD,一个新的基准数据集,由基于PubMed文章的模拟研究对话和干预点组成。

Consensus 用 GPT-5 和 Responses API 加速研究

OpenAI Blog

# Consensus 使用 GPT-5 和 Responses API 在几分钟内完成数周的研究 来源:[https://openai.com/index/consensus/](https://openai.com/index/consensus/) 每年都有数百万篇新的科学论文发表——远远超过任何一个人能阅读的数量。对于科学家来说,挑战不在于获取知识的途径,而在于寻找、解释和关联信息的繁重任务。突破发生在已知领域的边界,然而研究人员大部分时间都在寻找