process-reward-model

#process-reward-model

从长新闻到精准预测：重要性感知融合与PRM引导的反思在时间序列预测中的应用

arXiv cs.AI ↗ · 昨天缓存

本文介绍了一个时间序列预测框架，该框架利用重要性感知的新闻压缩和过程奖励模型引导的检索，在固定上下文长度内融入长新闻文章，从而提高金融、能源、交通和比特币基准上的预测精度。

0 人收藏 0 人点赞

#process-reward-model

学习检索：面向文本到SQL智能体的双层长期记忆

arXiv cs.CL ↗ · 2天前缓存

本文提出了MERIT，一种面向交互式文本到SQL智能体的动态多时域记忆检索框架，它使用情节级别和回合级别的记忆，并通过强化学习以及用于密集奖励的过程奖励模型优化的学习检索策略。在BIRD-Interact和Spider2-Snow上的实验表明，MERIT在成功率上优于静态和单时域动态基线，同时需要更少的交互轮次。

0 人收藏 0 人点赞

#process-reward-model

结合学习可靠性的过程奖励

arXiv cs.CL ↗ · 2026-05-18 缓存

BetaPRM 是一种过程奖励模型，它使用来自蒙特卡洛延续的 Beta 信念来预测步骤级的成功概率以及该预测的可靠性，从而实现自适应计算分配，在提高准确性的同时将 token 使用量减少高达 33.57%。

0 人收藏 0 人点赞

process-reward-model

从长新闻到精准预测：重要性感知融合与PRM引导的反思在时间序列预测中的应用

学习检索：面向文本到SQL智能体的双层长期记忆

结合学习可靠性的过程奖励

提交意见反馈