超越数学和代码的可验证奖励：面向事实问答的轻量级语料库锚定过程监督

Hugging Face Daily Papers 2026/05/28 00:00 论文

摘要

CorVer是一种轻量级的、基于语料库的奖励机制，利用维基百科共现统计信息为事实问答中的强化学习提供高效的句子级反馈，其性能优于神经验证器，同时训练速度提升4.8至8.4倍。

将强化学习应用于提升知识密集型问答的准确性时，面临奖励设计困境。响应级奖励仅提供粗略监督，无法区分推理轨迹中正确与错误的陈述。句子级替代方案提供更细粒度的反馈，但通常依赖于NLI验证器、LLM法官或知识验证流水线，这些方法在强化学习规模下部署成本高昂，且对于稀有实体事实（其准确的奖励信号尤为重要）往往不可靠。我们提出CorVer（语料库验证），一种轻量级、即插即用的过程奖励机制，用基于维基百科共现统计的语料库锚定信号替代神经验证器。CorVer分配句子级信用，并通过简单对齐将其映射到令牌级优势，每个句子仅需0.5B提取器和一次语料库查找。在跨越六个指令微调模型（3B至14B）和五个问答基准的30个（模型，基准）单元中，CorVer在每一单元上都优于原始基线，平均TriviaQA增益为+4.1个百分点。在其可行配置下的20个单元中，CorVer在18个单元上优于四种神经验证器基线，同时训练速度提升4.8至8.4倍。

查看原文

查看缓存全文

缓存时间: 2026/05/29 07:00

论文页面 - 超越数学与代码的可验证奖励：面向事实性问答的轻量级语料库基础过程监督

来源：https://huggingface.co/papers/2605.29648

摘要

CorVer，一种基于语料库的奖励机制，通过利用维基百科共现统计提供高效的句子级反馈，在提升问答事实准确性方面表现优于神经验证器，同时减少了训练时间。

将强化学习（https://huggingface.co/papers?q=reinforcement%20learning）应用于提升知识密集型问答（https://huggingface.co/papers?q=knowledge-intensive%20question%20answering）的事实准确性，面临着奖励设计（https://huggingface.co/papers?q=reward%20design）的困境。响应级奖励仅提供粗略的监督，无法区分推理轨迹中正确与错误的陈述。句子级替代方案能提供更细粒度的反馈，但通常依赖于NLI验证器（https://huggingface.co/papers?q=NLI%20verifiers）、LLM裁判（https://huggingface.co/papers?q=LLM%20judges）或知识验证流水线（https://huggingface.co/papers?q=knowledge-verification%20pipelines），这些方法在RL规模化部署时成本高昂，且对于稀有实体事实（尤其需要准确奖励信号的情况）往往不可靠。我们提出CorVer（Corpus Verify），一种轻量级、即插即用的过程奖励机制，用基于语料库的信号（https://huggingface.co/papers?q=corpus-grounded%20signal）替代神经验证器，该信号源自维基百科共现统计（https://huggingface.co/papers?q=Wikipedia%20co-occurrence%20statistics）。CorVer分配句子级信用，并通过简单对齐将其映射为词元级优势（https://huggingface.co/papers?q=token-level%20advantages），仅需一个0.5B的提取器和每次句子的一次语料库查询。在横跨六种指令微调模型（3B至14B）和五个QA基准的30个（模型、基准）单元格中，CorVer在每个单元格上都优于原始基线，TriviaQA（https://huggingface.co/papers?q=TriviaQA）平均提升+4.1个百分点。在可行的配置下，CorVer在20个单元格中的18个上优于四种神经验证器基线，同时训练速度提升4.8至8.4倍。

查看arXiv页面（https://arxiv.org/abs/2605.29648）查看PDF（https://arxiv.org/pdf/2605.29648）GitHub0（https://github.com/shichengf/CorVer）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.29648）

在你的智能体中获取此论文：

hf papers read 2605\.29648

没有最新的CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型关联此论文

在模型README.md中引用arxiv.org/abs/2605.29648以从此页面链接。

引用此论文的数据集0

没有数据集关联此论文

在数据集README.md中引用arxiv.org/abs/2605.29648以从此页面链接。

引用此论文的Spaces0

没有Space关联此论文

在Space README.md中引用arxiv.org/abs/2605.29648以从此页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到收藏集（https://huggingface.co/new-collection）以从此页面链接。

超越数学和代码的可验证奖励：面向事实问答的轻量级语料库锚定过程监督

论文页面 - 超越数学与代码的可验证奖励：面向事实性问答的轻量级语料库基础过程监督

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的Spaces0

包含此论文的收藏集0

相似文章

CORA：通过一致性导向推理对齐分析与弥合多模态RLVR中的思考-答案差距

CalVerT：使用校准验证器遥测增强智能体，改善知识密集型任务中的行动与学习

RLVR中的奖励粒度：比较小语言模型数学推理中的过程奖励与结果奖励结构

通过方差感知的评分标准奖励与GRPO改进LLMs心脏相关医疗问答

AgentV-RL：用智能体验证器扩展奖励建模

提交意见反馈