现成LLM作为过程评分器:数学推理中无需训练的PRM替代方案
摘要
提出块级引导生成(Chunk-Level Guided Generation),一种无需训练的方法,利用现成LLM作为过程评分器,在小模型生成过程中选择固定长度的候选块,相比多数投票和PRM引导搜索,显著提升数学推理准确性。
查看缓存全文
缓存时间: 2026/06/02 15:37
论文页面 - 现成的大语言模型作为过程评分器:数学推理中PRM的无训练替代方案
来源:https://huggingface.co/papers/2606.01682
摘要
块级引导生成(Chunk-Level Guided Generation) 使用一个大语言模型作为过程评分器(process scorer),在小模型生成过程中选择固定长度的候选块,相比传统的多数投票(majority voting)和PRM引导搜索(PRM guided search)等方法,提高了推理准确性。
使用更强的评分器从多个小模型样本中选择最佳响应是一种简单的推理时策略,但当小模型已经陷入错误的推理路径时,这种方法会失效。PRM引导搜索(https://huggingface.co/papers?q=PRM%20guided%20search)通过在生成过程中对候选延续进行评分来避免这一问题,但需要经过步骤级标签训练的奖励模型(reward model)(https://huggingface.co/papers?q=reward%20model)。我们提出块级引导生成(Chunk-Level Guided Generation)(https://huggingface.co/papers?q=Chunk-Level%20Guided%20Generation),这是一种无需训练的无替代方案,使用现成的大语言模型(large language model)(https://huggingface.co/papers?q=large%20language%20model)作为过程评分器(process scorer)(https://huggingface.co/papers?q=process%20scorer)。在每一步,小模型采样k个固定长度的候选块,而大模型则使用似然对这些候选进行评分,无需生成任何文本。选定的块在下一步之前被提交,从而在错误传播之前引导生成过程。我们通过两种选择规则实例化该框架:似然引导选择(Likelihood-Guided Selection)(https://huggingface.co/papers?q=Likelihood-Guided%20Selection)(LGS),选择具有最高长度归一化大模型对数概率的块;以及对比引导选择(Contrastive-Guided Selection)(https://huggingface.co/papers?q=Contrastive-Guided%20Selection)(CGS),通过减去小模型的对数概率,优先选择大模型偏好与小模型偏好出现分歧的块。我们表明,使用大模型似然对可变长度的推理步骤进行评分不可靠,因为存在即使经过长度归一化后仍然存在的系统性长度偏差,而固定长度的块避免了这一混淆因素。在 GSM8K、MATH、Minerva Math、AMC23 和 AIME24 上,使用 Qwen2.5-1.5B 由 Qwen2.5-32B 引导,以及 Llama-3.2-1B 由 Llama-3.1-70B 引导,CGS 相比多数投票(majority voting)(https://huggingface.co/papers?q=majority%20voting)最多提升 28 个百分点,并且在匹配的引导预算下,在大多数基准测试中达到或超过 Qwen2.5-Math-PRM-72B 引导搜索(https://huggingface.co/papers?q=guided%20search)的性能,且无需奖励模型训练。使用 Qwen2.5-7B 由 Qwen2.5-72B 引导时,CGS 在 k=16 时在 MATH 上达到 81.8%,在 Minerva Math 上达到 63.6%,比多数投票(majority voting)(https://huggingface.co/papers?q=majority%20voting)提升 4–6 个百分点。最后,块级引导生成(Chunk-Level Guided Generation)(https://huggingface.co/papers?q=Chunk-Level%20Guided%20Generation)生成的推理轨迹(reasoning trace)(https://huggingface.co/papers?q=reasoning%20trace)比 PRM 引导搜索(https://huggingface.co/papers?q=PRM%20guided%20search)显著更短。
查看 arXiv 页面(https://arxiv.org/abs/2606.01682)查看 PDF(https://arxiv.org/pdf/2606.01682)项目页面(https://arxiv.org/pdf/2606.01682)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.01682)
在你的 agent 中获取此论文:
hf papers read 2606.01682
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 0
无模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2606.01682 以从此页面链接。
引用此论文的数据集 0
无数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.01682 以从此页面链接。
引用此论文的 Spaces 0
无 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2606.01682 以从此页面链接。
包含此论文的收藏 1
相似文章
揭示大语言模型中的数学推理:内部机制的方法学研究
本文通过早期解码分析大语言模型的内部机制,研究其如何执行算术运算。研究发现,能力强的模型在推理任务中,注意力模块和 MLP 模块之间呈现明确的分工。
几何潜在推理促使LLM生成更短文本
几何潜在推理(GLR)为LLM中的潜在推理引入了一种几何路径近似方法,能够在数学推理基准上保持准确性的同时实现更短的生成。
@stevibe:哪些大模型真的“热爱思考”?实测7款模型5道数学题,推理长度大比拼。思考冠军:bo…
7款大模型在5道数学题上的基准测试;Qwen3.5 27B与35B A3B生成最长推理链,每题超10k tokens。
相互推理让小型语言模型成为更强大的问题求解者
本文介绍了一种相互推理技术,通过自我反馈和奖励函数迭代优化候选解决方案,从而增强小型语言模型(LLMs)的问题求解能力。
无监督过程奖励模型
本文提出无监督过程奖励模型(uPRM),通过利用LLM的下一个令牌概率识别错误推理步骤,从而消除人工标注需求,在准确率上相比LLM-as-a-Judge提升高达15%,并且作为验证器和奖励信号时表现与有监督PRM相当。