现成LLM作为过程评分器:数学推理中无需训练的PRM替代方案

Hugging Face Daily Papers 论文

摘要

提出块级引导生成(Chunk-Level Guided Generation),一种无需训练的方法,利用现成LLM作为过程评分器,在小模型生成过程中选择固定长度的候选块,相比多数投票和PRM引导搜索,显著提升数学推理准确性。

使用更强的评分器从多个小模型样本中选择最佳回答是一种简单的推理时策略,但当小模型已经陷入错误的推理路径时,这种方法就会失效。PRM引导搜索通过在生成过程中对候选延续进行评分来避免这个问题,但需要使用经过步级标签训练的奖励模型。 我们提出块级引导生成(Chunk-Level Guided Generation),这是一种无需训练的替代方法,使用现成的大语言模型作为过程评分器。在每一步中,小模型采样k个固定长度的候选块,而大模型则使用似然度对这些候选块进行评分,而不生成任何文本。在下一步之前确定选中的块,从而在错误传播之前引导生成。 我们通过两种选择规则实例化该框架:似然引导选择(LGS),选择具有最高长度归一化大模型对数概率的块;对比引导选择(CGS),减去小模型的对数概率,以偏向大模型偏好与小模型不同的块。我们证明,使用大模型似然度对可变长度推理步骤进行评分是不可靠的,因为存在即使在长度归一化后仍然存在的系统性长度偏差,而固定长度块则避免了这一混淆因素。 在GSM8K、MATH、Minerva Math、AMC23和AIME24上,使用Qwen2.5-32B引导Qwen2.5-1.5B以及使用Llama-3.1-70B引导Llama-3.2-1B时,CGS相比多数投票最多提升28个百分点,并且在匹配的引导预算下,在大多数基准测试中无需奖励模型训练即可达到或超过Qwen2.5-Math-PRM-72B引导搜索。使用Qwen2.5-72B引导Qwen2.5-7B时,CGS在k=16时在MATH上达到81.8%,在Minerva Math上达到63.6%,超过多数投票4-6个百分点。最后,块级引导生成的推理轨迹远比PRM引导搜索的要短。
查看原文
查看缓存全文

缓存时间: 2026/06/02 15:37

论文页面 - 现成的大语言模型作为过程评分器:数学推理中PRM的无训练替代方案

来源:https://huggingface.co/papers/2606.01682

摘要

块级引导生成(Chunk-Level Guided Generation) 使用一个大语言模型作为过程评分器(process scorer),在小模型生成过程中选择固定长度的候选块,相比传统的多数投票(majority voting)和PRM引导搜索(PRM guided search)等方法,提高了推理准确性。

使用更强的评分器从多个小模型样本中选择最佳响应是一种简单的推理时策略,但当小模型已经陷入错误的推理路径时,这种方法会失效。PRM引导搜索(https://huggingface.co/papers?q=PRM%20guided%20search)通过在生成过程中对候选延续进行评分来避免这一问题,但需要经过步骤级标签训练的奖励模型(reward model)(https://huggingface.co/papers?q=reward%20model)。我们提出块级引导生成(Chunk-Level Guided Generation)(https://huggingface.co/papers?q=Chunk-Level%20Guided%20Generation),这是一种无需训练的无替代方案,使用现成的大语言模型(large language model)(https://huggingface.co/papers?q=large%20language%20model)作为过程评分器(process scorer)(https://huggingface.co/papers?q=process%20scorer)。在每一步,小模型采样k个固定长度的候选块,而大模型则使用似然对这些候选进行评分,无需生成任何文本。选定的块在下一步之前被提交,从而在错误传播之前引导生成过程。我们通过两种选择规则实例化该框架:似然引导选择(Likelihood-Guided Selection)(https://huggingface.co/papers?q=Likelihood-Guided%20Selection)(LGS),选择具有最高长度归一化大模型对数概率的块;以及对比引导选择(Contrastive-Guided Selection)(https://huggingface.co/papers?q=Contrastive-Guided%20Selection)(CGS),通过减去小模型的对数概率,优先选择大模型偏好与小模型偏好出现分歧的块。我们表明,使用大模型似然对可变长度的推理步骤进行评分不可靠,因为存在即使经过长度归一化后仍然存在的系统性长度偏差,而固定长度的块避免了这一混淆因素。在 GSM8K、MATH、Minerva Math、AMC23 和 AIME24 上,使用 Qwen2.5-1.5B 由 Qwen2.5-32B 引导,以及 Llama-3.2-1B 由 Llama-3.1-70B 引导,CGS 相比多数投票(majority voting)(https://huggingface.co/papers?q=majority%20voting)最多提升 28 个百分点,并且在匹配的引导预算下,在大多数基准测试中达到或超过 Qwen2.5-Math-PRM-72B 引导搜索(https://huggingface.co/papers?q=guided%20search)的性能,且无需奖励模型训练。使用 Qwen2.5-7B 由 Qwen2.5-72B 引导时,CGS 在 k=16 时在 MATH 上达到 81.8%,在 Minerva Math 上达到 63.6%,比多数投票(majority voting)(https://huggingface.co/papers?q=majority%20voting)提升 4–6 个百分点。最后,块级引导生成(Chunk-Level Guided Generation)(https://huggingface.co/papers?q=Chunk-Level%20Guided%20Generation)生成的推理轨迹(reasoning trace)(https://huggingface.co/papers?q=reasoning%20trace)比 PRM 引导搜索(https://huggingface.co/papers?q=PRM%20guided%20search)显著更短。

查看 arXiv 页面(https://arxiv.org/abs/2606.01682)查看 PDF(https://arxiv.org/pdf/2606.01682)项目页面(https://arxiv.org/pdf/2606.01682)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.01682)

在你的 agent 中获取此论文:

hf papers read 2606.01682

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

无模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.01682 以从此页面链接。

引用此论文的数据集 0

无数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.01682 以从此页面链接。

引用此论文的 Spaces 0

无 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2606.01682 以从此页面链接。

包含此论文的收藏 1

相似文章

几何潜在推理促使LLM生成更短文本

Hugging Face Daily Papers

几何潜在推理(GLR)为LLM中的潜在推理引入了一种几何路径近似方法,能够在数学推理基准上保持准确性的同时实现更短的生成。

无监督过程奖励模型

Hugging Face Daily Papers

本文提出无监督过程奖励模型(uPRM),通过利用LLM的下一个令牌概率识别错误推理步骤,从而消除人工标注需求,在准确率上相比LLM-as-a-Judge提升高达15%,并且作为验证器和奖励信号时表现与有监督PRM相当。