从正确性到效用:基于增益的LLM推理前缀评估
摘要
本文介绍了前缀效用模型(PUM),该模型基于前缀的效用(解题率的提升)而非局部正确性来评估LLM推理前缀。PUM在数学推理任务中的选择、搜索和强化学习方面表现出色。
arXiv:2606.07190v1 Announce Type: new
摘要:推理前缀塑造了LLM问题求解的未来轨迹,然而现有的过程奖励模型通常通过局部步骤的正确性来评估它们。我们认为正确性是一个有用但间接的代理,对于最终关心的效果:前缀是否增加了成功完成的概率。我们将这种效果定义为前缀增益,即通过在轻量级学生模型组上条件化前缀所带来的解题率提升,并利用一个简单的成对排序目标来训练前缀效用模型(PUM)。PUM学习基于结果的前缀效用,并能对完整轨迹和部分推理前缀进行评分。在Best-of-$N$选择、束搜索和数学推理的强化学习中,PUM提供了强大的前缀级监督信号,特别是在候选池较大、搜索预算增加或基于规则的奖励稀疏的情况下。我们已在https://zhiqix.github.io/pum-project-page发布所有数据、模型和代码。
查看缓存全文
缓存时间: 2026/06/08 09:22
# 从正确性到效用:基于增益的LLM推理词缀评估 来源:https://arxiv.org/abs/2606.07190 查看PDF (https://arxiv.org/pdf/2606.07190) > 摘要:推理词缀塑造了LLM问题求解的未来轨迹,然而现有的过程奖励模型通常通过局部步骤的正确性来评估它们。我们认为,正确性是一个有用但间接的代理指标,无法直接衡量我们真正关心的效果:一个词缀是否增加了成功完成的概率。我们将这种效果定义为词缀增益,即通过让轻量级学生模型组基于某个词缀进行条件处理所提升的解题率,并利用简单的成对排序目标来训练一个词缀效用模型(Prefix Utility Model, PUM)。PUM学习基于结果的词缀效用,能够对完整轨迹和部分推理词缀进行评分。在数学推理任务中,无论是Best-of-N选择、束搜索还是强化学习,PUM都提供了强大的词缀级监督信号,尤其是在候选池规模较大、搜索预算增加或基于规则的奖励稀疏时效果显著。我们在此网址发布所有数据、模型和代码:this https URL (https://zhiqix.github.io/pum-project-page)。 ## 提交历史 来自:Yuhang Zhou [查看邮箱 (https://arxiv.org/show-email/f404a999/2606.07190)] **[v1]** 2026年6月5日星期五 11:56:50 UTC (11,463 KB)
相似文章
@mdeng34: 前沿LLM正汇聚于高效、自适应推理。Opus 4.7让模型自行决定推理深度。GPT…
新研究引入了SR²AM,这是一种自调节何时使用模拟推理的配置器,提升了LLM的效率和性能。
当推理收敛时停止:保留语义的推理模型提前退出
本文介绍 PUMA,一个即插即用框架,通过检测思维链推理中的语义冗余实现提前退出,在多个模型和基准测试中平均减少 26.2% 的 Token,同时保持准确性和推理质量。
LLMEval-Logic:一个经过求解器验证的、带有对抗性加固的大语言模型逻辑推理中文基准
LLMEval-Logic 是一个新的中文基准,专门评估大语言模型的逻辑推理能力,具有求解器验证的答案和对抗性加固。该基准揭示了当前模型的显著差距,最佳模型在困难项目上仅达到37.5%的准确率。
面向比较图的可靠LLM评估的提示扰动
提出了一种提示扰动框架,该框架生成扰动的提示变体,通过图级一致性检查过滤掉结构不一致的比较模式,然后应用标准排名方法产生更可靠的LLM排名。
工具总是有益的吗?学会自适应调用工具以实现双模式多模态大语言模型推理
介绍 AutoTool,一种自适应决定是否调用工具进行多模态大语言模型推理的模型,通过强化学习和双模式推理实现了显著的准确率和效率提升。