AgentV-RL：用智能体验证器扩展奖励建模

arXiv cs.CL 2026/04/20 04:00 论文

reward-modeling verifiers test-time-scaling reinforcement-learning agentic-systems llm-reasoning tool-use

摘要

AgentV-RL引入了智能体验证器框架，通过具有工具增强的前向和后向智能体进行双向验证来增强奖励建模，相比最先进的ORM实现了25.2%的性能提升。该方法通过将多轮深思熟虑过程与强化学习相结合，解决了验证器在复杂推理任务中的误差传播和基础性不足等问题。

arXiv:2604.16004v1 公告类型：新摘要：验证器已被证明可以通过测试时扩展(TTS)增强LLM推理能力。然而，在复杂领域中它们面临重大挑战。来自错误中间推理的误差传播可能导致看似合理的解决方案出现假正例，而缺乏外部基础使验证器在计算或知识密集型任务上不可靠。为解决这些挑战，我们提出智能体验证器框架，将奖励建模转化为多轮、工具增强的深思熟虑过程。我们引入互补的前向和后向智能体：一个沿着前提到结论进行追踪，另一个重新检查结论与其底层前提的一致性。这种双向过程能够实现对解决方案的全面、可靠和可解释的评估。为便于实际部署，我们提出了AgentV-RL。通过主动探索和强化学习，验证器自主地将工具使用与内部推理交织在一起。广泛的实验表明智能体验证器在平行和顺序TTS下都能带来一致的性能收益。值得注意的是，我们的4B变体超越了最先进的ORM 25.2%，将其定位为智能体奖励建模的有前景范式。

查看原文

查看缓存全文

缓存时间: 2026/04/20 08:29

# AgentV-RL: 使用智能体验证器扩展奖励建模

来源: https://arxiv.org/html/2604.16004

Jiazheng Zhang1∗、Ziche Fu1∗、Zhiheng Xi1∗、Wenqing Jing1、Mingxu Chai1、Wei He1、Guoqiang Zhang1、Chenghao Fan2、Chenxin An3、Wenxiang Chen1、Zhicheng Liu4、Haojie Pan4、Dingwei Zhu1、Tao Gui5,6†、Qi Zhang5,6、Xuanjing Huang5,6

1复旦大学计算机科学与人工智能学院
2华中科技大学
3香港大学
4字节跳动Seed
5复旦大学可信具身智能研究所
6上海多模态具身智能关键实验室

[email protected], [email protected]

###### 摘要

验证器通过测试时间扩展（TTS）增强了大语言模型的推理能力。然而，在复杂领域中它们面临重大挑战。来自错误中间推理的错误传播可能导致对看似合理解决方案的假阳性，而缺乏外部依据使验证器在计算或知识密集型任务上不可靠。为了解决这些问题，我们提出智能体验证器（Agentic Verifier），一个将奖励建模转变为多轮、工具增强的深思熟虑过程的框架。我们引入了互补的前向和后向智能体：一个从前提追溯到结论，另一个根据其基础前提重新检查结论。这一双向过程实现了全面、可靠和可解释的解决方案评估。为了便于实际部署，我们提出AgentV-RL。通过主动探索和强化学习，验证器自主地交织工具使用与内部推理。广泛的实验表明智能体验证器在并行和顺序TTS下都产生一致的性能提升。值得注意的是，我们的4B变体超越了最先进的ORM 25.2%，将其定位为智能体奖励建模的有前景范式。我们的代码可在GitHub获得 (https://github.com/JiazhengZhang/AgentV-RL)。

## 1 引言

![图1：智能体验证器 vs. GenRM：GenRM遭受错误传播且被错误解决方案误导，而智能体验证器确保严格的外部依据审查。](https://arxiv.org/html/2604.16004#S1.F1)

OpenAI和Google在国际数学奥林匹克竞赛上的最近里程碑（OpenAI, 2025; DeepMind, 2025）突出了推理模型如Gemini-3和DeepSeek-Math-V2的快速上升。为了推进大语言模型的能力边界，扩展推理时间计算已成为普遍趋势。无论是通过并行方法（如Best-of-NN）还是顺序细化，测试时间扩展（TTS）的有效性从根本上取决于奖励模型，即验证器，它充当指导搜索过程和辨别解决方案质量的关键指南针。

现有奖励模型，由结果级RM（ORM）和过程级RM（PRM）代表，仅输出标量值而缺乏可解释性。尽管最近的工作利用下一个令牌预测目标来训练生成奖励模型（GenRM），但这类工作通常采用单轮推理来评估候选解决方案。具体而言，这一普遍范式存在图1所示的关键局限性：

(1) **错误传播**：由于大语言模型主要在正确或接近正确的解决方案上训练，它们难以在有缺陷的解决方案条件下获得正确的判断，容易被表面看似合理但实际错误的答案误导。

(2) **外部依据**：验证器经常在计算密集型或知识繁重的领域中遭遇困难。没有与符号求解器或外部工具的集成，它们容易产生幻觉，导致性能不稳定。

这些限制突显了通过多轮推理与外部工具集成向智能体奖励建模范式转变的趋势。

为了弥补这一差距，我们提出**智能体验证器**，一个模拟严谨的人类检查的多智能体框架。受数学证明策略启发，智能体验证器协调两个专门智能体：前向智能体和后向智能体。前向智能体负责充分性检查，通过追踪从前提到结论的逻辑流；后向智能体进行必要性检查，验证解决方案是否基于问题约束。两个智能体都配备了多轮推理和工具增强的验证能力：它们可以迭代地将复杂解决方案分解为可验证的子步骤，调用外部工具如代码解释器进行数值计算。这一协作机制共同允许全面审查，确保可靠的判断，主动识别直接的缺陷或无根据的内容。

为了应对训练多智能体系统的固有挑战，我们引入**AgentV-RL**以将这种多智能体能力蒸馏为单一模型。这个方案包括自动生成验证轨迹并进行质量控制的端到端合成数据引擎，以及解锁推理潜力的两阶段训练模式。通过自动构造涵盖广泛逻辑和计算挑战的验证轨迹，这个合成引擎不仅缓解了数据稀缺，还确保了对困难推理模式的全面覆盖。在此基础上，我们的两阶段训练方案设计用来通过拒绝采样微调后跟强化学习，赋予验证器多轮、长期和工具集成的推理能力。

最后，我们进行了详尽的实验来审查智能体验证器在广泛设置下的有效性。对于并行TTS（即Best-of-N），我们的智能体验证器优于专有推理模型和现成的BT-RM数学。值得注意的是，我们的4B变体一致优于参数多10倍的INF-ORM-Llama3.1-70B，一个结果奖励模型。对于顺序TTS，智能体验证器作为有效的批评模型，提供理想反馈以帮助纠正执行者的缺陷。第4章的深入分析确认了其有效性并改进了执行者性能。

总的来说，我们的主要贡献是：

- **提供了一个用于奖励建模的智能体范式，智能体验证器**，编排两个专门智能体主动识别看似合理解决方案中的缺陷。
- **引入AgentV-RL**，一个可扩展的方案，将多智能体的能力蒸馏为单个大语言模型，赋予验证器多轮、长期和工具集成的推理能力。
- **经验实验证明了所提方法的有效性**。值得注意的是，我们的4B变体优于最先进的ORM并达到高达25.2%的改进。

![图2：智能体验证器架构概览。智能体验证器协调前向和后向智能体进行多轮推理和工具增强的验证，以获得可靠的验证。](https://arxiv.org/html/2604.16004#S2.F2)

## 2 相关工作

##### 奖励模型（RM）

奖励模型在将大语言模型与人类偏好对齐中起着关键作用。传统的结果级RM根据偏好排名为完整响应分配标量奖励。为了解决稀疏监督的限制，PRM通过监督中间步骤提供密集信号。最近的工作探索了生成奖励模型（GenRM），将奖励建模重新表述为生成自然语言反馈的下一个令牌预测。基于此范式，基于标准的GenRM动态构造任务特定的标准并对评估标准进行推理。与此平行，一些方法在LLM-as-Judge框架下用工具增强RM。然而，现有方法要么不紧密地将工具执行集成到推理过程中，要么无法提供测试时间扩展（TTS）所需的逐点反馈。相比之下，我们的工作将验证重新表述为一个智能体、多轮过程，实现测试时间探索和可靠的评估。

##### 测试时间扩展和验证器

最近的工作表明，扩展推理时间计算可以大幅改进大语言模型推理，测试时间扩展（TTS）已成为并行选择和顺序细化的通用范式。在这一设定中，基于批评的方法使用辅助模型指导执行者在测试时的纠正和自我改进，而更最近的研究表明奖励模型和过程验证器本身也可以从额外的推理时间计算中受益。我们的工作与这一类工作密切相关，但不同之处在于我们将验证视为双向、多轮、工具增强的过程，在并行和顺序TTS下实现充分性和必要性检查。

## 3 方法

在本文中，我们专注于执行者和验证器在数学领域的交互TTS行为。执行者参与解决问题，而验证器对生成的解决方案链提供监督反馈。

##### 并行扩展

Best-of-N（BoN）已成为一个普遍的并行采样策略，利用验证器选择高质量的解决方案。具体而言，对于给定的输入x，执行者采样k个候选解决方案，记为{y^(j)}_{j=1}^k。随后，验证器π_ψ评估这些候选并生成验证理由f来评估其正确性。信度最高的解决方案随后被选中。这个信度分数定义为验证批评中True令牌的似然，计算如下：

l(x, y^(j)) = π_ψ(True | x, y^(j), f^(j), I)

其中f^(j) ~ π_ψ(x, y^(j), I)，I是指令："解决过程是否正确？(True/False)"。

##### 顺序扩展

给定查询x

相似文章

视频模型可通过可验证奖励进行推理

Hugging Face Daily Papers

VideoRLVR利用基于规则的奖励的强化学习，优化视频扩散模型以进行可验证推理任务，在约束满足的视频生成中取得了优于监督方法的性能。

CORA：通过一致性导向推理对齐分析与弥合多模态RLVR中的思考-答案差距

arXiv cs.CL

本文分析了大型视觉语言模型中多模态可验证奖励强化学习（RLVR）中的思考-答案不一致性，并提出CORA方法，该方法引入了一致性奖励模型和混合奖励优势拆分，以提高忠实性和任务性能。

利用可验证奖励强化学习激励参数知识以优化跨文化实体翻译

arXiv cs.CL

# 利用可验证奖励强化学习激励参数知识用于跨文化实体翻译来源：[https://arxiv.org/html/2604.16881](https://arxiv.org/html/2604.16881) Jiang Zhou1, Xiaohu Zhao2, Xinwei Wu1, Tianyu Dong1, Hao Wang2, Yangyang Liu2, Heng Liu2, Linlong Xu2, Longyue Wang2, Weihua Luo2, Deyi Xiong1† 1天津大学 TJUNLP 实验室，中国 2阿里巴巴集团，中国 [dyxiong@tju\.edu\.cn](https://arxiv.org/html/2604.16881v1/mailto:[email protected]) ###### 摘

奖励作为具身世界模型的智能体

arXiv cs.AI

本文介绍了奖励作为智能体（Reward as an Agent）和DynDiff-GRPO，以解决具身世界模型中强化学习的奖励黑客攻击和有限探索问题，实现了显著的准确率提升。

优中选优：超越答案正确性奖励，激励可靠的多模态推理

arXiv cs.CL

研究者提出 Groupwise Ranking Reward，解决多模态强化学习中的“推理-答案不一致”问题，将可靠性条件下的准确率从 47.4% 提升至 54.7%，超越标准 RLVR。

相似文章

视频模型可通过可验证奖励进行推理

CORA：通过一致性导向推理对齐分析与弥合多模态RLVR中的思考-答案差距

利用可验证奖励强化学习激励参数知识以优化跨文化实体翻译

奖励作为具身世界模型的智能体

优中选优：超越答案正确性奖励，激励可靠的多模态推理

提交意见反馈