process-supervision

#process-supervision

LAPO：多轮搜索推理中自生成过程奖励的单轮剔除归因方法

arXiv cs.AI ↗ · 14小时前缓存

LAPO提出了一种用于多轮搜索推理中自生成过程奖励的单轮剔除归因方法，无需外部奖励模型即可实现细粒度的信用分配。该方法在七个数据集上取得了最先进的结果。

0 人收藏 0 人点赞

#process-supervision

IdeaTrail：科学构思的全过程智能体轨迹

arXiv cs.AI ↗ · 2天前缓存

IdeaTrail是一个多轮过程轨迹数据集，用于科学构思，通过Generator--Advisor循环从证据收集到提案构建合成研究过程，以确保依据充分。

0 人收藏 0 人点赞

#process-supervision

SkillCoach：自演化评分标准用于评估与增强智能体技能使用

Hugging Face Daily Papers ↗ · 2026-07-02 缓存

SkillCoach提出了一种自演化评分标准框架，通过分析技能选择、遵循、组合和反思来评估并增强LLM智能体技能使用，提供了超越仅结果指标的过程级监督。

0 人收藏 0 人点赞

#process-supervision

过程优势信号塑形：用于LLM推理器中过程监督强化学习的范式无关中间件

arXiv cs.AI ↗ · 2026-06-30 缓存

PASS是一种中间件，它修复了LLM推理器过程监督强化学习中的三种病理现象，通过独立标准化流、按值分块和使用平均价值密度来改进GRPO。它在数学推理和多跳问答中显示出持续的增益。

0 人收藏 0 人点赞

#process-supervision

VeriGate：用于GRPO的验证器门控步级监督

arXiv cs.LG ↗ · 2026-06-01 缓存

VeriGate通过验证器门控步级监督扩展了GRPO，在验证器奖励退化时提供细粒度的信用分配。在1.5B和7B模型的推理基准测试上实现了显著的准确率提升。

0 人收藏 0 人点赞

#process-supervision

超越数学和代码的可验证奖励：面向事实问答的轻量级语料库锚定过程监督

Hugging Face Daily Papers ↗ · 2026-05-28 缓存

CorVer是一种轻量级的、基于语料库的奖励机制，利用维基百科共现统计信息为事实问答中的强化学习提供高效的句子级反馈，其性能优于神经验证器，同时训练速度提升4.8至8.4倍。

0 人收藏 0 人点赞

#process-supervision

STRIDE：面向LLM推理的可学习逐步语言反馈

arXiv cs.LG ↗ · 2026-05-20

STRIDE提出了一种训练框架，使用可学习的逐步语言反馈而非标量奖励来提升LLM推理能力，在多种基准测试上取得了最先进的结果。

0 人收藏 0 人点赞

#process-supervision

将结果监督内化为过程监督：推理强化学习的新范式

arXiv cs.LG ↗ · 2026-05-08 缓存

介绍了 IOP，这是一个将结果监督内化为过程监督以用于推理强化学习的框架，能够在无需外部标注的情况下实现细粒度的信用分配。

0 人收藏 0 人点赞

#process-supervision

ATTNPO: 用于高效推理的注意力引导过程监督

arXiv cs.CL ↗ · 2026-04-20 缓存

ATTNPO 引入了一个注意力引导的过程监督框架，通过利用内在的注意力信号进行步级信用分配，减少大型推理模型的过度思考，在 9 个基准测试中实现了更好的性能和更短的推理长度。

0 人收藏 0 人点赞

#process-supervision

通过过程监督改进数学推理

OpenAI Blog ↗ · 2023-05-31 缓存

OpenAI 展示了过程监督——对中间推理步骤而非仅对最终答案进行奖励——如何改进数学推理，同时降低对齐成本。这种方法在不牺牲模型性能的前提下，产生更易解释、更符合人类价值观的推理过程。

0 人收藏 0 人点赞

process-supervision

提交意见反馈