从正确性到效用:基于增益的LLM推理前缀评估

arXiv cs.CL 论文

摘要

本文介绍了前缀效用模型(PUM),该模型基于前缀的效用(解题率的提升)而非局部正确性来评估LLM推理前缀。PUM在数学推理任务中的选择、搜索和强化学习方面表现出色。

arXiv:2606.07190v1 Announce Type: new 摘要:推理前缀塑造了LLM问题求解的未来轨迹,然而现有的过程奖励模型通常通过局部步骤的正确性来评估它们。我们认为正确性是一个有用但间接的代理,对于最终关心的效果:前缀是否增加了成功完成的概率。我们将这种效果定义为前缀增益,即通过在轻量级学生模型组上条件化前缀所带来的解题率提升,并利用一个简单的成对排序目标来训练前缀效用模型(PUM)。PUM学习基于结果的前缀效用,并能对完整轨迹和部分推理前缀进行评分。在Best-of-$N$选择、束搜索和数学推理的强化学习中,PUM提供了强大的前缀级监督信号,特别是在候选池较大、搜索预算增加或基于规则的奖励稀疏的情况下。我们已在https://zhiqix.github.io/pum-project-page发布所有数据、模型和代码。
查看原文
查看缓存全文

缓存时间: 2026/06/08 09:22

# 从正确性到效用:基于增益的LLM推理词缀评估
来源:https://arxiv.org/abs/2606.07190
查看PDF (https://arxiv.org/pdf/2606.07190)

> 摘要:推理词缀塑造了LLM问题求解的未来轨迹,然而现有的过程奖励模型通常通过局部步骤的正确性来评估它们。我们认为,正确性是一个有用但间接的代理指标,无法直接衡量我们真正关心的效果:一个词缀是否增加了成功完成的概率。我们将这种效果定义为词缀增益,即通过让轻量级学生模型组基于某个词缀进行条件处理所提升的解题率,并利用简单的成对排序目标来训练一个词缀效用模型(Prefix Utility Model, PUM)。PUM学习基于结果的词缀效用,能够对完整轨迹和部分推理词缀进行评分。在数学推理任务中,无论是Best-of-N选择、束搜索还是强化学习,PUM都提供了强大的词缀级监督信号,尤其是在候选池规模较大、搜索预算增加或基于规则的奖励稀疏时效果显著。我们在此网址发布所有数据、模型和代码:this https URL (https://zhiqix.github.io/pum-project-page)。

## 提交历史

来自:Yuhang Zhou [查看邮箱 (https://arxiv.org/show-email/f404a999/2606.07190)] **[v1]** 2026年6月5日星期五 11:56:50 UTC (11,463 KB)

相似文章

面向比较图的可靠LLM评估的提示扰动

arXiv cs.CL

提出了一种提示扰动框架,该框架生成扰动的提示变体,通过图级一致性检查过滤掉结构不一致的比较模式,然后应用标准排名方法产生更可靠的LLM排名。