ReCrit：面向科学批评推理的过渡感知强化学习

arXiv cs.LG 2026/05/20 04:00 论文

reinforcement-learning llm scientific-reasoning critic-interaction sycophancy transition-aware

摘要

ReCrit 提出了一种面向科学批评推理的过渡感知强化学习框架，将初始到批评行为分解为四个象限（Correction、Sycophancy、Robustness、Boundary），并使用动态异步展开。它在多个科学基准上显著提升了 Qwen 模型的批评准确性。

arXiv:2605.18799v1 公告类型：新摘要：大型语言模型在批评交互中可能失败，不仅因为回答错误，还可能因为在用户批评后放弃原本正确的科学解决方案。这在科学推理中尤其危险，因为用户的批评可能将有效答案变为错误答案。我们将批评交互视为一个回合间正确性转换问题，而非最终答案准确性问题，并确定了三个挑战：转换感知、区分有益修正与有害谄媚，以及可扩展的展开。我们提出 ReCrit，一种转换感知的强化学习框架，将初始到批评行为分解为四个象限：Correction、Sycophancy、Robustness 和 Boundary。ReCrit 奖励修正和鲁棒性，惩罚谄媚，并将持续错误视为弱边界信号。为了使交互训练实用，ReCrit 进一步使用动态异步展开与尾部自适应补全以减少展开等待。在三个科学推理基准 ChemBench、TRQA 和 EarthSE 上，ReCrit 将 Qwen3.5-4B 的平均批评准确率从 38.15 提升至 51.49，将 Qwen3.5-9B 的从 45.40 提升至 55.59。消融实验表明，最终答案奖励提供的交互级收益很小，而转换感知奖励和象限权重产生了更可区分的训练信号和更大的净批评阶段改进。代码可在 https://github.com/black-yt/ReCrit 获取。

查看原文

查看缓存全文

缓存时间: 2026/05/20 08:36

# ReCrit: 面向科学评价推理的过渡感知强化学习 来源：https://arxiv.org/html/2605.18799 王涵旭¹,²，周宇豪²，赵恒远³，李烁²，余典志⁴，殷振飞⁵，胡耀文⁶，徐丰力⁶，欧阳万里¹,²，张文龙²²，白磊²²¹上海交通大学²上海人工智能实验室³新加坡国立大学⁴香港中文大学⁵牛津大学⁶清华大学²²通讯作者\.\{zhangwenlong,bailei\}@pjlab\.org\.cn ###### 摘要 大型语言模型在评价交互中可能失败，不仅是因为回答错误，还因为在用户批评后放弃最初正确的科学解决方案。这在科学推理中尤其危险，因为用户批评可能将一个有效答案转变为错误答案。我们将评价交互视为一个回合间正确性过渡问题，而非最终答案准确性问题，并识别出三个挑战：过渡感知、区分有用修正与有害谄媚，以及可扩展的展开。我们提出ReCrit，一个过渡感知的强化学习框架，将初始到评价行为分解为四个象限：修正、谄媚、鲁棒性和边界。ReCrit奖励修正和鲁棒性，惩罚谄媚，并将持续错误视为弱边界信号。为使交互训练实用化，ReCrit进一步采用动态异步展开与尾部自适应补全，以减少展开等待。在三个科学推理基准测试ChemBench、TRQA和EarthSE上，ReCrit在Qwen3.5-4B上将平均评价准确率从38.15提升至51.49，在Qwen3.5-9B上从45.40提升至55.59。消融实验表明，最终答案奖励几乎不带来交互层面的收益，而过渡感知奖励和象限权重能产生更可区分的训练信号和更大的净评价阶段改进。代码可在GitHub (https://github.com/black-yt/ReCrit) 获取。 ![[未标注图片]](https://arxiv.org/html/2605.18799v1/x1.png) 图1:过渡感知评价交互。左侧面板展示了一个科学评价交互，其中初始错误答案在验证后被修正。右侧面板将初始到评价行为分解为四个过渡象限：修正、鲁棒性、谄媚和边界。 ## 1引言 大型语言模型 (LLMs) (Hu等人，2025 (https://arxiv.org/html/2605.18799#bib.bib23); Zhao等人，2023 (https://arxiv.org/html/2605.18799#bib.bib24); Naveed等人，2025 (https://arxiv.org/html/2605.18799#bib.bib25)) 通常通过单轮基准准确率进行评估。然而，真实交互很少是单轮的。用户会挑战答案、要求验证，有时还会提供误导性批评。一个可靠的科学助手应在批评暴露真实错误时修正其解决方案 (Tang等人，2025 (https://arxiv.org/html/2605.18799#bib.bib26))，同时在批评无依据时保留正确解决方案。当前模型正是在这种交互模式下常常失败：一个最初正确的解决方案可能因评价回合而不稳定，并被错误答案取代。这种失败在性质上不同于普通的不准确。错误答案通常表明能力有限；而谄媚交互 (Fanous等人，2025 (https://arxiv.org/html/2605.18799#bib.bib17); Li等人，2026 (https://arxiv.org/html/2605.18799#bib.bib27)) 表明模型已得出正确结论，但缺乏在压力下捍卫它的稳定性。这对于科学问答尤为成问题，因为答案往往依赖于脆弱的证据链、领域约束和类似专家的验证。诸如“你确定吗？”这样的挑战应触发基于依据的重新审视，而非盲目切换答案 (Petrov等人，2025 (https://arxiv.org/html/2605.18799#bib.bib22))。即使是像Qwen3-max (Team，2026 (https://arxiv.org/html/2605.18799#bib.bib28)) 这样能力强大的LLMs也无法幸免：在与生物相关的推理中，6.98%初始正确的答案在收到评价反馈后变得错误，整体准确率从51.16下降至48.84 (表1 (https://arxiv.org/html/2605.18799#S4.T1))。我们用*科学评价推理* (Bai等人，2025 (https://arxiv.org/html/2605.18799#bib.bib29); Zou等人，2026 (https://arxiv.org/html/2605.18799#bib.bib30)) 来表示一个简单的评价反馈设置，其中模型首先回答一个科学问题，然后接收评价反馈，并必须决定是保留还是修改其答案。将此设置转化为可训练的目标需要解决三个挑战。(1) 模型缺乏*回合间过渡感知* (Laban等人，2025 (https://arxiv.org/html/2605.18799#bib.bib31); Zhang等人，2025a (https://arxiv.org/html/2605.18799#bib.bib32))：标准的监督微调 (SFT) (Shi等人，2025 (https://arxiv.org/html/2605.18799#bib.bib33)) 主要模仿期望的答案，倾向于应用回合不变的模仿压力，而非将信用分配给解决方案在评价反馈后应如何变化。(2) 有用的修正和有害的谄媚难以解耦。同一答案修改可能修正一个初始错误的解决方案，也可能破坏一个初始正确的解决方案。因此，最终答案奖励可能同时增加两种行为并隐藏它们的抵消效果。(3) 评价训练比普通的单轮训练更难扩展，因为每个示例至少需要一次初始生成和一次评价生成；同步展开在慢样本阻塞整个批次时会产生长尾等待气泡 (Zhang等人，2026 (https://arxiv.org/html/2605.18799#bib.bib34); Kwon，2025 (https://arxiv.org/html/2605.18799#bib.bib35))。简而言之，*科学评价推理需要回合间过渡感知、谄媚解耦以及可扩展的多阶段展开*。我们提出ReCrit，一个面向科学评价推理的过渡感知强化学习 (Sun等人，2024 (https://arxiv.org/html/2605.18799#bib.bib38)) 框架。ReCrit并非仅优化最终解决方案的正确性，而是显式建模从初始解决方案到评价解决方案的正确性过渡 (Chen等人，2025a (https://arxiv.org/html/2605.18799#bib.bib36))。此过渡分解为四个象限，如图1 (https://arxiv.org/html/2605.18799#S0.F1) 所示：*修正*，其中初始错误的解决方案变为正确；*谄媚*，其中初始正确的解决方案变为错误；*鲁棒性*，其中正确的解决方案保持正确；以及*边界*，其中两种解决方案仍然错误。ReCrit直接应对这三个挑战。为提供过渡感知，它根据初始到评价的正确性过渡奖励轨迹，而非将两代生成视为同质答案样本。为解耦修正与谄媚，它分配校准象限权重：对修正强奖励，对谄媚强惩罚，对鲁棒性弱奖励，对边界弱惩罚。为提高展开可扩展性，它使用动态异步展开 (Jiang等人，2026 (https://arxiv.org/html/2605.18799#bib.bib37)) 与尾部自适应补全，允许完成的样本立即进入评价阶段，避免尾部延迟样本的完全代价。在三个封闭形式科学推理基准测试ChemBench (Mirza等人，2025 (https://arxiv.org/html/2605.18799#bib.bib3))、TRQA (Zhang等人，2025c (https://arxiv.org/html/2605.18799#bib.bib2)) 和EarthSE (Xu等人，2025a (https://arxiv.org/html/2605.18799#bib.bib1)) 上的实验表明，ReCrit在Qwen3.5-4B (Team，2026 (https://arxiv.org/html/2605.18799#bib.bib28)) 和Qwen3.5-9B上一致提升了评价准确率，即评价反馈后的准确率。这些基准涵盖化学、生物学和地球科学，提供了一个受控设置，其中评价引发的修正和退化可被可靠判断。在4B模型上，平均评价准确率从38.15提升至51.49；在9B模型上，从45.40提升至55.59。消融实验表明，仅使用最终答案奖励几乎不提供改进，而过渡感知奖励、校准象限权重、评价阶段权重和最终化逐步增加了净增益。进一步分析表明，SFT往往同时增加修正和谄媚，而ReCrit提供了更密集且更可分离的RL信号。我们的贡献是： - •我们将科学评价推理建模为回合间正确性过渡问题，而非静态最终答案问题。 - •我们引入一个四象限过渡奖励，区分修正、谄媚、鲁棒性和边界，使有用修正和有害谄媚可分别优化。 - •我们实现带有动态异步展开和尾部自适应补全的ReCrit，提高了多阶段评价训练的实用性。 - •我们在三个封闭形式科学基准和两种模型规模上表明，ReCrit通过净有益的正确性过渡（而非仅更强的初始答案）提升了评价阶段准确率。 ## 2相关工作 #### 评价推理与训练。先前的工作探索了多种使语言模型在收到反馈后改进其输出的方法。Self-Refine (Madaan等人，2023 (https://arxiv.org/html/2605.18799#bib.bib7)) 和Reflexion (Shinn等人，2023 (https://arxiv.org/html/2605.18799#bib.bib8)) 使用自生成的言语反馈驱动迭代修订，而Feedback Friction (Jiang等人，2025 (https://arxiv.org/html/2605.18799#bib.bib11)) 和CorrectBench (Tie等人，2025 (https://arxiv.org/html/2605.18799#bib.bib12)) 表明，即使是强外部反馈也不会自动融入更好的第二答案。另一条工作线更明确地研究类似评价的监督：StepWiser (Xiong等人，2025 (https://arxiv.org/html/2605.18799#bib.bib13)) 和RM-R1 (Chen等人，2025b (https://arxiv.org/html/2605.18799#bib.bib14)) 使评判者或奖励模型在打分之前进行深思，Critique-GRPO (Zhang等人，2025b (https://arxiv.org/html/2605.18799#bib.bib15)) 将自然语言批评注入在线RL，Critique-RL (Xi等人，2025 (https://arxiv.org/html/2605.18799#bib.bib50)) 使用两阶段RL流水线训练独立的评价者。这些方法丰富了反馈和评判，但它们主要优化响应质量或评价质量。ReCrit则将初始到评价的正确性过渡本身作为训练目标。面向推理的RL进一步表明，可验证奖励能在规模上引导搜索、反思和长形式推理。DeepSeek-R1 (Guo等人，2025 (https://arxiv.org/html/2605.18799#bib.bib10)) 展示了基于正确性的大规模RL的有效性，而面向多轮代理的回合级奖励设计 (Wei等人，2025 (https://arxiv.org/html/2605.18799#bib.bib16)) 则认为稀疏轨迹级奖励对于多步交互往往过于粗糙。ReCrit遵循这种粒度转变，但将信用分配单元从最终答案成功转移到正确性过渡。这一改变至关重要：它使修正、鲁棒性、谄媚和能力边界成为可区分的优化目标，而非坍缩为同一最终答案标签的后果。 #### 反谄媚交互。《理解语言模型中的谄媚行为》(Sharma等人，2023 (https://arxiv.org/html/2605.18799#bib.bib9)) 将谄媚作为一种失败模式进行研究，其中模型同意或迎合用户信念，即使这样做与真实性相冲突。该问题与更广泛的结盟张力密切相关，这种张力存在于帮助性、用户迎合和事实鲁棒性之间，如Constitutional AI (Bai等人，2022 (https://arxiv.org/html/2605.18799#bib.bib5)) 和InstructGPT (Ouyang等人，2022 (https://arxiv.org/html/2605.18799#bib.bib4)) 所研究。在科学环境中，风险被放大：模型可能已经拥有正确结论，但用户挑战可能将其推向不真实的答案。这不仅是一种事实性失败；它更是一种交互失败，因为有害行为仅在评价干预后才变得可见。近期研究在不同设置下使这种交互风险具体化。SycEval (Fanous等人，2025 (https://arxiv.org/html/2605.18799#bib.bib17))、多轮谄媚测量 (Hong等人，2025 (https://arxiv.org/html/2605.18799#bib.bib18)) 和Truth Decay (Liu等人，2025 (https://arxiv.org/html/2605.18799#bib.bib19)) 研究用户压力下的有害认同和事实漂移；ELEPHANT (Cheng等人，2025 (https://arxiv.org/html/2605.18799#bib.bib20)) 和Beacon (Pandey等人，2025 (https://arxiv.org/html/2605.18799#bib.bib21)) 分析顺从偏差的社会和潜在形式；BrokenMath (Petrov等人，2025 (https://arxiv.org/html/2605.18799#bib.bib22)) 表明类似的退化也出现在形式推理中。这些工作是强大的诊断工具，但它们大多测量同意行为、最终响应质量或提示敏感性。ReCrit则将谄媚定义为一个特定的正确性过渡：初始正确的科学解决方案在评价反馈后变得错误。这种过渡观点将有害退化与有用修正分开，并将该区分转化为直接优化目标。 ## 3方法 参见图注图2:ReCrit训练流水线。ReCrit采样多个初始解决方案，注入不同态度的评价反馈，采样评价解决方案，并从四个正确性象限计算过渡感知奖励。组归一化优势随后更新策略。图2 (https://arxiv.org/html/2605.18799#S3.F2) 给出了训练流水线的具体概览。对于每个科学问题，策略采样多个初始解决方案，接收随机选择的对立、中立或支持性评价反馈，然后采样对应的评价解决方案。评判者将初始和评价解决方案映射为正确性标签，四象限奖励分配过渡特定分数，组归一化优势更新策略。完整更新和展开过程的详细伪代码见附录C (https://arxiv.org/html/2605.18799#A3)。 ### 3.1问题形式化 给定一个科学问题xx，模型首先生成一个初始解y0y\_\{0\}。系统随后提供评价反馈cc，模型基于xx、y0y\_\{0\}和cc生成评价解y1y\_\{1\}。评判者JJ将每个解决方案映射为二元正确性，得到S0=J\(x,y0\)S\_\{0\}=J\(x,y\_\{0\}\)和S1=J\(x,y1\)S\_\{1\}=J\(x,y\_\{1\}\)。传统的最终答案奖励仅评估S1S\_\{1\}。ReCrit评估从S0S\_\{0\}到S1S\_\{1\}的过渡。这种形式化改变了被优化的对象。在最终答案目标下，两个具有相同评价正确性的轨迹即使交互行为差异很大也是无法区分的。例如，一个从一开始就正确的轨迹和一个修正了初始错误的轨迹都有S1=1S\_\{1\}=1，但只有后者展示了有用的、依赖于评价的修正。类似地，一个因问题超出模型能力而保持错误的轨迹和一个在批评后放弃正确答案的轨迹都有S1=0S\_\{1\}=0，但只有后者是谄媚退化。因此，ReCrit将有序对\(S0,S1\)\(S\_\{0\},S\_\{1\}\)视为基本单元。 ### 3.2评价交互流水线 评价反馈旨在触发重新审视而非揭示答案。我们使用对立

ReCrit：面向科学批评推理的过渡感知强化学习

相似文章

ICRL：通过强化学习内化自我批判

解码大型推理模型中的批判机制

CSRP: 通过强化学习结合效率感知奖励进行中文文本纠错的思维链推理

批判性反馈在何时能提升人工智能辅助的理论物理研究？SCALAR：用于智能体推理的结构化批评者-执行者循环

Co-ReAct：将评分标准作为 ReAct 代理的步骤级协作工具

提交意见反馈