从被动生成到主动调查:一种主动的学术同行评审智能体
摘要
本文提出ProReviewer,一种基于大语言模型的学术同行评审智能体,其被形式化为马尔可夫决策过程。该智能体通过维护结构化的评审日志主动探究论文,在多个质量维度上优于现有方法。
arXiv:2606.13349v1 Announce Type: new
Abstract: 大型语言模型(LLMs)在自动化科学同行评审方面展现出潜力。然而,现有方法通常难以生成有具体证据支持的深度评审。我们认为,一个关键限制在于缺乏灵活性,无法像人类评审者那样基于累积证据主动调查论文的可疑部分。在本文中,我们探索如何让基于LLM的评审智能体执行此类主动调查。我们发现,这可以自然地形式化为马尔可夫决策过程(MDP),并提出ProReviewer——一种学术同行评审智能体,它通过维护的结构化评审日志主动评审论文。结构化评审日志充当智能体的工作空间,用于追踪评审过程中收集的证据和中间发现。实验表明,采用8B骨干模型、通过监督微调训练并经过强化学习优化的ProReviewer,在五个质量维度上取得了最高平均分,相对优于使用更大前沿LLM的基于提示的方法多达39%,并相对优于最强微调基线16%。在人工评估中,它还取得了对基线最高的胜率。
查看缓存全文
缓存时间: 2026/06/12 08:52
# 从被动生成到主动调查:一种主动型科学同行评审代理 来源:https://arxiv.org/html/2606.13349 Haishuo Fang¹,² Yue Feng³ Iryna Gurevych¹,² ¹ 达姆施塔特工业大学普适知识处理实验室(UKP Lab) ² 德国国家应用网络安全研究中心(ATHENE) ³ 伯明翰大学计算机科学学院 www.ukp.tu-darmstadt.de (https://arxiv.org/html/2606.13349v1/www.ukp.tu-darmstadt.de) [email protected] (https://arxiv.org/html/2606.13349v1/mailto:[email protected]) ###### 摘要 大型语言模型(LLMs)在自动化科学同行评审方面展现了潜力。然而,现有方法往往难以生成有具体证据支持、具有深度的评审意见。我们认为,关键局限性在于缺乏灵活性,无法像人类评审员那样基于已积累的证据主动调查论文中的可疑部分。本文探索如何让基于LLM的评审代理实现这种主动调查。我们发现,这可以自然地形式化为马尔可夫决策过程(MDP),并提出ProReviewer——一种科学同行评审代理,它通过维护结构化的**评审日志**来主动审阅论文。结构化评审日志作为工作空间,让代理能够追踪在审阅过程中收集的证据和中间发现。实验表明,基于8B骨干网络、通过监督微调训练并经过强化学习优化的ProReviewer,在五个质量维度上取得了平均最高分,相对优于基于提示方法、使用更大规模前沿LLM的系统高达39%,相对优于最强的微调基线16%。它在人工评估中针对各基线也获得了最高的胜率¹¹¹https://github.com/UKPLab/arxiv2026-ProReviewer。 **从被动生成到主动调查:一种主动型科学同行评审代理** Haishuo Fang¹,² Yue Feng³ Iryna Gurevych¹,² ¹ 达姆施塔特工业大学普适知识处理实验室(UKP Lab) ² 德国国家应用网络安全研究中心(ATHENE) ³ 伯明翰大学计算机科学学院 www.ukp.tu-darmstadt.de (https://arxiv.org/html/2606.13349v1/www.ukp.tu-darmstadt.de) [email protected] (https://arxiv.org/html/2606.13349v1/mailto:[email protected]) ## 1 引言 同行评审是研究社区评估和改进学术作品以进行出版的主要机制。大型语言模型(LLMs)的最新进展引起了人们对利用LLMs进行自动化科学论文评审的日益关注(Biswas et al., 2026 (https://arxiv.org/html/2606.13349#bib.bib2); Idahl and Ahmadi, 2025 (https://arxiv.org/html/2606.13349#bib.bib4); Zhuang et al., 2025 (https://arxiv.org/html/2606.13349#bib.bib3); Liang et al., 2023 (https://arxiv.org/html/2606.13349#bib.bib5))。 图1:ProReviewer的一个示例。代理在摘要中提取了“跨领域的鲁棒性”这一声明,导航到实验部分进行验证,发现该声明与报告的结果相矛盾,并在其评审日志中记录了这一不一致。 先前的工作已经探索了几种从稿件生成评审的策略,包括直接提示(Robertson, 2023 (https://arxiv.org/html/2606.13349#bib.bib7); Liang et al., 2023 (https://arxiv.org/html/2606.13349#bib.bib5); Liu and Shah, 2023 (https://arxiv.org/html/2606.13349#bib.bib8))、多阶段流水线(Gao et al., 2024 (https://arxiv.org/html/2606.13349#bib.bib12); Zhu et al., 2025 (https://arxiv.org/html/2606.13349#bib.bib13))以及多代理协作(Jin et al., 2024 (https://arxiv.org/html/2606.13349#bib.bib20); Yamada et al., 2025 (https://arxiv.org/html/2606.13349#bib.bib21))。然而,最近的研究发现,现有方法生成的评论较为肤浅(Li et al., 2025b (https://arxiv.org/html/2606.13349#bib.bib48)),给出缺乏具体证据的通用评论(Ou et al., 2025 (https://arxiv.org/html/2606.13349#bib.bib49)),在没有充分调查的情况下就将作者的声明视为优点(Du et al., 2024 (https://arxiv.org/html/2606.13349#bib.bib10); Ye et al., 2024 (https://arxiv.org/html/2606.13349#bib.bib47)),并且未能检测到跨章节的逻辑不一致(例如,声明与实验结果矛盾)(Dycke and Gurevych, 2026 (https://arxiv.org/html/2606.13349#bib.bib9); Li et al., 2025a (https://arxiv.org/html/2606.13349#bib.bib46))。我们认为,这些局限性源于缺乏灵活性,无法像人类评审员那样主动调查论文中的可疑部分。人类专家评审员会跨章节关联证据,当发现不一致时会重新审视之前的声明,并根据已有发现决定下一步检查什么(Willis, 2024 (https://arxiv.org/html/2606.13349#bib.bib6))。相比之下,现有方法将评审视为被动生成任务,其调查路径是事先固定好的,而非根据已有发现进行调整,这限制了灵活性。例如,当摘要中的声明与实验中的结果矛盾时,人类评审员会交叉检查并标记差异(图1),而采用固定调查路径的系统可能会直接接受该声明而不再重新审视。为弥补这一差距,我们提出了ProReviewer,一种通过维护结构化**评审日志**(§3.2)来主动调查论文的评审代理。日志记录了从手稿中提取的**声明**、阅读过程中提出的**问题**以及捕获中间发现的**笔记**。当代理阅读新内容时,它会更新日志:验证先前的声明与后续证据的一致性,解答未解决的问题,或记录新的发现。因此,日志既积累证据,也指导下一步该检查什么。最终的评审直接源自日志,每条评论都可追溯到其支持证据。由于这个过程涉及关于检查什么以及如何更新评审日志的顺序决策,我们将其形式化为马尔可夫决策过程(MDP)(§3.1)。与依赖手工设计流水线的先前系统不同,MDP形式化允许评审策略通过强化学习进行**学习**,使代理能够根据每篇论文调整其调查深度。我们通过监督微调在合成轨迹上训练ProReviewer,然后使用具有多维奖励的分组相对策略优化(GRPO)(Guo et al., 2025 (https://arxiv.org/html/2606.13349#bib.bib36))(§3.3)进行优化。为确保无污染评估,我们构建了一个版本匹配的语料库,包含5K个ICLR 2025/2026论文-评审对,使用4K篇ICLR 2025论文进行训练,并在1K篇保留的ICLR 2026论文上进行测试(这些论文的日期晚于基础模型的知识截止日期),以减轻潜在的数据污染(§4.1)。实验表明,基于8B骨干网络的ProReviewer在五个评审质量维度上平均排名第一,相对优于基于前沿LLM的系统(例如Gemini-3.1-flash-lite, Qwen3.5-397B-A17B)高达39%,相对优于最佳微调基线16%,并且人工评估人员也在所有成对比较中更偏好它的评审(§4.3)。进一步的分析证实,ProReviewer能更有效地检测微妙的跨章节不一致(§5.2),并且在论文长度增加时保持稳健的性能(§5.3)。我们的贡献可总结如下: - 1. 将同行评审形式化为主动调查的MDP,并在ProReviewer中实例化,一种通过强化学习训练的评审代理。 - 2. 一种结构化的评审日志,通过在整个评审过程中维护声明、问题和笔记,支持可追溯、基于证据的评审生成。 - 3. 一个精选的版本匹配语料库,包含5k个ICLR 2025/2026论文-评审对,其中每篇评审都与它所评估的稿件版本对齐,实现了污染可控的训练和评估。 - 4. 实验结果表明,ProReviewer在自动评估和人工评估中均优于使用前沿LLM的基于提示的系统以及微调基线。 ## 2 相关工作 ##### 基于LLM的评审生成。 自动科学评审的早期工作使用直接提示一次性生成完整评审(Robertson, 2023 (https://arxiv.org/html/2606.13349#bib.bib7); Liu and Shah, 2023 (https://arxiv.org/html/2606.13349#bib.bib8); Liang et al., 2023 (https://arxiv.org/html/2606.13349#bib.bib5); Weng et al., 2025 (https://arxiv.org/html/2606.13349#bib.bib14); Zeng et al., 2025 (https://arxiv.org/html/2606.13349#bib.bib24)),但这类评审往往缺乏特异性、深度和可靠的依据(Du et al., 2024 (https://arxiv.org/html/2606.13349#bib.bib10); Shin et al., 2025 (https://arxiv.org/html/2606.13349#bib.bib11))。为了引入更多结构,最近的方法将评审分解为阶段性子任务(Gao et al., 2024 (https://arxiv.org/html/2606.13349#bib.bib12); Zhu et al., 2025 (https://arxiv.org/html/2606.13349#bib.bib13))、层次化问题分解(Chang et al., 2025 (https://arxiv.org/html/2606.13349#bib.bib25))、多代理角色分配(Jin et al., 2024 (https://arxiv.org/html/2606.13349#bib.bib20); Goyal et al., 2026 (https://arxiv.org/html/2606.13349#bib.bib19); Yamada et al., 2025 (https://arxiv.org/html/2606.13349#bib.bib21))或模块化流水线(Sahu et al., 2025 (https://arxiv.org/html/2606.13349#bib.bib1))。所有这些方法都遵循**固定**的评审流程,不会根据在论文中的发现进行调整。ProReviewer的不同之处在于:(1)其评审策略是通过RL**学习**的,而非手工设计,使代理能够基于积累的证据主动调查论文;(2)它维护一个结构化的评审日志,在整个评审过程中持久化声明、问题和笔记,支持跨章节的证据追踪和修订。与我们工作同期,DeepReviewer 2.0(Weng et al., 2026 (https://arxiv.org/html/2606.13349#bib.bib44))也在评审过程中追踪证据,但其表示形式——带有锚定注释的可追踪评审包——旨在帮助人类评审者审核最终输出。相比之下,我们的评审日志充当工作记忆,让代理根据积累的证据决定下一步调查什么。 ##### 代理推理。 将推理与行动交错的基于LLM的代理在网络导航(Nakano et al., 2021 (https://arxiv.org/html/2606.13349#bib.bib26))、软件工程(Jimenez et al., 2024 (https://arxiv.org/html/2606.13349#bib.bib28))和科学发现(Lu et al., 2024 (https://arxiv.org/html/2606.13349#bib.bib29))中取得了强劲结果。ReAct(Yao et al., 2023 (https://arxiv.org/html/2606.13349#bib.bib27))等框架在思考和行动步骤之间交替,而Reflexion(Shinn et al., 2023a (https://arxiv.org/html/2606.13349#bib.bib31))和Self-Refine(Madaan et al., 2023 (https://arxiv.org/html/2606.13349#bib.bib41))则增加了迭代自我纠正循环。其他工作通过速记板(Nye et al., 2021 (https://arxiv.org/html/2606.13349#bib.bib30))或持久记忆来增强代理,以在长跨度上保留信息(Shinn et al., 2023b (https://arxiv.org/html/2606.13349#bib.bib32); Hu et al., 2025 (https://arxiv.org/html/2606.13349#bib.bib40); Yan et al., 2025 (https://arxiv.org/html/2606.13349#bib.bib37))。虽然持久记忆有助于保留信息,但这些方法通常积累非结构化的推理轨迹,使得难以选择性地修正特定的早期发现或将批评追溯到支持它们的证据。相比之下,ProReviewer维护一个带有类型化条目的结构化评审日志作为可训练的MDP状态的一部分,从而能够进行选择性修正和证据追溯,而无需将完整的推理轨迹保留在上下文中。 ## 3 方法 图2:ProReviewer的交互循环。在时间步 \(t\),代理 \(\pi_\theta\) 观察状态 \(s_t\)(论文索引、评审日志和上下文),并采样一个动作 \(a_t\),它由环境动作 \(a_t^\mathrm{env}\) 和日志动作 \(a_t^\mathrm{log}\) 组成。策略使用 \(a_t^\mathrm{env}\) 从论文中获取内容,同时 \(a_t^\mathrm{log}\) 更新评审日志,以维护对论文不断演化的理解和评估。多组件奖励产生 \(r_t\),系统转换到 \(s_{t+1}\) 直到终止。 本节介绍用于主动评审科学论文的ProReviewer(图2)。我们首先定义MDP形式化(§3.1),描述评审日志的设计(§3.2),然后介绍多维奖励函数(§3.3),最后详述训练过程(§3.4)。在附录J中提供了一个展示完整评审过程的具体案例研究。 ### 3.1 将评审生成视为马尔可夫决策过程 我们的方法并非遵循预定的流水线,而是使代理能够通过可学习的策略,在每一步决定阅读哪个部分、提取什么证据以及何时重新审视先前的内容。我们将其形式化为 \(\mathcal{M} = (\mathcal{S}, \mathcal{A}, \mathcal{T}, \mathcal{E}, \mathcal{R})\)。 ##### 状态 \(\mathcal{S}\)。 状态必须同时捕获代理当前观察到的内容以及它迄今为止学到的东西,从而能够做出关于下一步查看何处的明智决策。每个状态 \(s_t = (\mathcal{C}_t, \mathcal{L}_t, \mathcal{P})\) 表示代理在步骤 \(t\) 的理解:(1)**当前上下文** \(\mathcal{C}_t\),包含最近的动作和观察(例如,一个章节);(2)**评审日志** \(\mathcal{L}_t\),记录代理积累的证据条目(§3.2);(3)**论文索引** \(\mathcal{P}\),包含标题和目录,用于导航论文。 ##### 动作 \(\mathcal{A}\)。 动作空间反映两种互补的活动:从论文中获取信息以及维护评审日志。它分为两类。**环境动作** 用于获取信息:`read_section` 检索一个章节的完整文本,`look_up` 搜索论文中的特定关键词,`finish` 终止 episode。**日志动作** 用于维护评审日志 \(\mathcal{L}\)(§3.2):`log` 记录新的证据条目(声明、问题或笔记),`update` 在有新信息出现时修订现有条目的状态,`outline` 通过添加引用已积累证据的点来构建最终评审。 在这项工作中,我们将当前动作空间限定在手稿本身,排除了外部检索,以孤立评估我们的核心设计。值得注意的是,我们提出的MDP形式化是模块化的:可以添加诸如文献检索以评估新颖性等动作,而不改变核心架构。完整的动作模式见附录A。 ##### 转移 \(\mathcal{T}\) 和环境 \(\mathcal{E}\)。 转移 \(\mathcal{T}(s_t, a_t) \to s_{t+1}\) 是确定性的。
相似文章
让LLMs相互评判:用于医学问答的多智能体同行评审推理
本文介绍了一种多智能体同行评审推理方法,其中多个LLM独立生成思维链推理,然后相互评估输出以选择最佳答案。该方法在医学问答基准测试中优于单模型推理和多数投票。
作者在环响应生成与评估:将作者专业知识和意图整合到同行评审回复中
本文介绍了Re3Align数据集、REspGen框架和REspEval评估套件,用于同行评审中的作者在环响应生成,整合了作者专业知识和意图信号。该工作填补了NLP在科学反驳文章表述中的空白,提供了全面的数据集、可控的生成框架和多维度评估指标。
代理审核系统基准测试
本文对用于同行评审的代理审核系统进行基准测试,评估了开源和专有系统在研究论文上的表现。最佳配置实现了83.0%的成对准确率,并捕获了71.6%的注入错误,但用户反馈强调了误报和吹毛求疵的问题。
PRISM:评估LLM审稿人的多维度基准
介绍PRISM,一个用于评估基于大语言模型的同行评审员的多维度基准,涵盖分析深度、新颖性评估、缺陷识别和建设性。研究结果表明,大语言模型在单个维度上能与人类评审员匹敌甚至超越,但缺乏跨所有维度的平衡表现,因此最适合作为人类评审的补充工具。
面向LLM智能体训练的回顾性进度感知自我精炼
本文介绍了RePro,一个通过“先执行再反思”的展开范式训练LLM智能体自我生成进度信号的框架,在WebShop、ALFWorld和Sokoban基准测试上实现了高达12%的绝对成功率提升。