process-reward-model

#process-reward-model

SCI-PRM：一种面向科学推理验证的工具感知过程奖励模型

arXiv cs.AI ↗ · 昨天缓存

# SCI-PRM：面向科学推理的工具感知过程奖励模型 SCI-PRM 提出了一种面向科学推理的工具感知过程奖励模型（Process Reward Model），基于 SCIPRM70K 数据集训练而成。该数据集包含"Chain-of-Tool"轨迹，将推理过程与科学工具的调用执行交织融合。SCI-PRM 能够实现高效的测试时扩展（test-time scaling），并作为强化学习中的密集奖励信号（dense reward signal），在科学基准测试的工具调用步骤上超越了 GPT-5-Mini 等专有模型。

0 人收藏 0 人点赞

#process-reward-model

从长新闻到精准预测：重要性感知融合与PRM引导的反思在时间序列预测中的应用

arXiv cs.AI ↗ · 2天前缓存

本文介绍了一个时间序列预测框架，该框架利用重要性感知的新闻压缩和过程奖励模型引导的检索，在固定上下文长度内融入长新闻文章，从而提高金融、能源、交通和比特币基准上的预测精度。

0 人收藏 0 人点赞

#process-reward-model

学习检索：面向文本到SQL智能体的双层长期记忆

arXiv cs.CL ↗ · 3天前缓存

本文提出了MERIT，一种面向交互式文本到SQL智能体的动态多时域记忆检索框架，它使用情节级别和回合级别的记忆，并通过强化学习以及用于密集奖励的过程奖励模型优化的学习检索策略。在BIRD-Interact和Spider2-Snow上的实验表明，MERIT在成功率上优于静态和单时域动态基线，同时需要更少的交互轮次。

0 人收藏 0 人点赞

#process-reward-model

结合学习可靠性的过程奖励

arXiv cs.CL ↗ · 2026-05-18 缓存

BetaPRM 是一种过程奖励模型，它使用来自蒙特卡洛延续的 Beta 信念来预测步骤级的成功概率以及该预测的可靠性，从而实现自适应计算分配，在提高准确性的同时将 token 使用量减少高达 33.57%。

0 人收藏 0 人点赞

process-reward-model

SCI-PRM：一种面向科学推理验证的工具感知过程奖励模型

从长新闻到精准预测：重要性感知融合与PRM引导的反思在时间序列预测中的应用

学习检索：面向文本到SQL智能体的双层长期记忆

结合学习可靠性的过程奖励

提交意见反馈