从带标签验证集输出统计预测推理时扩展增益
摘要
本文提出了一种方法,利用单次带标签验证集采样中获得的廉价统计量,预测语言模型的最佳N选一推理扩展增益。一个仅有三个核心特征的紧凑预测器与真实增益的斯皮尔曼相关系数ρ=0.90,使得在昂贵的奖励模型评分之前能够筛选配置。
arXiv:2606.02981v1 Announce Type: new
摘要:最佳N选一推理扩展(从语言模型中抽取N个候选答案,并返回奖励模型排名最高的一个)能提高准确率,但提升幅度因模型而异。目前要提前预测该提升幅度需要端到端运行整个过程。先前的工作将模型采样输出的廉价统计量(样本一致性、多样性、模型置信度以及正确样本出现位置)与验证集正确性联系起来以研究模型行为,但并未分离出哪些统计量能形成稳定、紧凑的最佳N选一增益预测器。我们利用单次带标签验证集采样计算的特征来拟合岭回归预测器,使用bootstrap-Lasso对候选特征集进行稳定性分析,并给出具有显式线性近似残差的集中度分析。在三个基座模型家族、六种后训练方法以及数学和推理任务领域上,稳定性分析识别出严格的三特征核心:提示级别的一致性分布、标签辅助的首次正确样本位置以及完成长度方差;基于该核心加上熵补充构建的紧凑岭回归预测器,在奖励模型验证器下与实际最佳N选一增益的斯皮尔曼相关系数ρ=0.90。预期用途是在支付完整奖励模型评分成本之前,用带标签验证集筛选候选配置。
查看缓存全文
缓存时间: 2026/06/03 09:36
# 从带标签验证集输出统计预测推理时缩放增益 来源:https://arxiv.org/html/2606.02981 Luyang Zhang 卡内基梅隆大学 luyangz@andrew\.cmu\.edu & Jingyan Li 约翰霍普金斯大学 jli336@alumni\.jh\.edu ###### 摘要 Best\-of\-N 推理时缩放(从语言模型中抽取 N 个候选答案,返回奖励模型评分最高的一个)能提升准确率,但提升幅度因模型而异。然而,要预先预测这个提升幅度,目前需要完整运行整个流程。先前的工作将模型采样输出的廉价统计量(样本一致性、多样性、模型置信度、正确样本出现位置)与验证集正确率联系起来,但未能厘清哪些统计量能构成稳定、紧凑的 Best\-of\-N 增益预测器。我们基于单次带标签验证集采样得到的特征拟合岭回归预测器,使用 Bootstrap\-Lasso 对候选特征集进行稳定性分析,并给出显式线性近似残差的集中性分析。在三个基座模型家族、六种后训练方法以及数学和推理任务域上,稳定性分析确定了一个严格的三特征核心:提示级别一致性离散度、带标签辅助的首个正确样本位置、以及完成长度方差。基于这个核心加上一个熵增特征构建的紧凑岭回归预测器,在奖励模型验证器下与实际 Best\-of\-N 增益达到 Spearman ρ=0.90。预期用途是在支付完整奖励模型评分成本之前,利用带标签验证集对候选配置进行筛选。 ## 1 引言 推理时缩放(从语言模型中抽取多个候选答案,并通过验证器或多数投票选择其中一个)已成为在推理密集型任务上部署大语言模型(LLM)的主要工具。然而,其收益因模型和任务而异 (Cobbe et al., 2021; Wang et al., 2023; Snell et al., 2024),目前没有可靠的方法预测缩放是否对新的模型-任务对有益。由于推理时缩放本身计算成本高昂,在没有此类预测器的情况下运行,会在收益很小的情况下浪费算力。这引出了核心问题:哪些带标签验证集的输出属性能够以较低的计算成本预测推理时缩放是否会提升准确率。 两个现有研究方向部分回答了这个问题。第一个方向通过端到端运行缩放,直接测量不同模型和任务上的推理时缩放增益 (Snell et al., 2024; Brown et al., 2024; Wu et al., 2024),展示了我们想要预测的方差,但未提供高效的预测器。第二个方向从模型的采样输出中提取低成本统计量,如一致性、多样性和置信度 (Kadavath et al., 2022; Holtzman et al., 2020; Wang et al., 2023),并将其与模型行为联系起来,但未联系到缩放增益。目前缺少的是一个跨基座模型和后训练方法通用的缩放增益带标签验证集特征预测器,该预测器需带有显式误差分解,并能识别哪些采样输出和验证集属性携带信号,而不是孤立地处理每个候选特征。 我们的框架将低成本的验证集样本统计量直接与缩放增益预测联系起来。对于基座模型、RL 方法、任务域和种子的每种配置,我们在三个温度下从模型中采样,处理带标签的保留提示,并计算两类统计量:无标签的模型跨样本生成相同答案的频率汇总,以及带验证辅助的提示间一致性和正确率变化汇总。这些特征以远低于端到端运行缩放的成本描述模型行为。然后,我们联合三个温度拟合一个岭回归,并使用 Bootstrap\-Lasso 作为稳定性分析,以识别哪些候选特征反复携带信号。集中性分析将回归误差分解为显式线性近似残差、采样统计量的特征侧不确定性以及用经验估计替代总体增益时的目标侧不确定性;随着抽取更多提示或每个提示更多样本,随机项会缩小,而将关注点限定在小的稳定特征集上,可以在候选特征数量增长时控制特征侧项。在奖励模型验证器下的数学和推理配置上,紧凑预测器在保留的 Best\-of\-N 增益排名上达到 Spearman ρ=0.90,用于预部署筛选的均值 top\-5 精确度为 0.90。Bootstrap\-Lasso 隔离出一个严格的三特征稳定核心:提示级别一致性离散度、带标签辅助的首个正确样本位置、完成长度方差;每个提示的熵汇总作为预测性附加项。紧凑预测器跨保留的后训练配方泛化(Spearman ρ∈[+0.78,+0.94]),并在重新拟合后对第二个奖励模型目标仍保持信息量(ρ=+0.81,在自举噪声范围内与同单元标题一致)。我们做出三项贡献。 - • 问题框架。我们将 Best\-of\-N 缩放增益预测视为对廉价带标签验证集样本统计量的回归,附带 Bootstrap\-Lasso 稳定性选择和将近似残差、目标侧噪声和特征侧噪声分离的集中性分析。 - • 稳定特征核心的识别。一个严格的三特征核心捕捉了我们评估的所有配置中的稳定预测信号,识别出哪些提示级别一致性、正确性位置和长度汇总携带信号;熵作为预测性附加项而非稳定性选择的核心部分单独报告。 - • 范围与失败模式。该结果适用于奖励模型验证器下的数学与推理;我们将多数投票选择和代码领域迁移识别为协议率特征族相关的失败模式。 ## 2 相关工作 推理时缩放。带有验证器的 Best\-of\-N 由 Cobbe 等人 (2021) 为小学级数学引入,而自一致性(在采样思维链中选择多数答案)由 Wang 等人 (2023) 推广。更强的验证器进一步扩大了增益,在步骤级标注上训练的过程奖励模型 (Lightman et al., 2024; Uesato et al., 2022) 有时在单样本基础上增加数十个百分点。Snell 等人 (2024) 研究了测试时计算何时有帮助,并表明最优分配依赖于提示难度和基座模型能力。 从廉价信号预测行为。缩放定律将损失与参数、数据和计算联系起来 (Kaplan et al., 2020; Hoffmann et al., 2022),但由此推导的下游准确率预测已被证明不可靠 (McKenzie et al., 2023);评估指标的选择本身可以制造或隐藏能力跃升的表象 (Schaeffer et al., 2023)。更接近的一条线是从训练好的模型本身的性质预测能力。Burnell 等人 (2023) 将基准结果分解为潜在技能,Ruan 等人 (2024) 跨检查点拟合观察性缩放定律以外推任务准确率。两者均不针对推理时缩放增益。两项研究考察了 BoN 收益的异质性,Brown 等人 (2024) 和 Wu 等人 (2024) 在对每个模型运行 BoN 后描述增益。 输出分布与探针。校准工作表明 LLM 的置信度和熵携带正确性信息 (Kadavath et al., 2022; Jiang et al., 2021)。探针可以从输出中恢复不明显任务相关变量,包括无监督的真实性激发 (Burns et al., 2023) 以及跟踪断言正确性的内部激活 (Azaria and Mitchell, 2023)。在输出层面,样本多样性度量如 self\-BLEU (Yu et al., 2017) 长期以来被用于描述生成模型,自一致性 (Wang et al., 2023) 本身是一个跨随机样本一致性的单特征汇总。关于 RL 微调的工作观察到偏好优化使输出分布尖锐化并抑制了有用的多样性 (Rafailov et al., 2023; Kirk et al., 2024),这与更多候选答案是否仍然有帮助直接相关。该文献缺少的是从这些分布性质到推理时缩放增益的定量联系。 ## 3 框架与理论分析 本节定义配置和采样输出统计量(第 3.1 节),构建带有稳定性分析的预测器(第 3.2 节),并给出集中性分析解释何时小特征集会带来可靠排名(第 3.3 节)。 ### 3.1 配置、增益与特征 预测推理时缩放是否有帮助需要一个配置、一个增益目标以及廉价的带标签验证集统计量。我们将配置定义为一个训练好的模型及其训练条件,使用 Best\-of\-N 准确率减去 pass@1 作为增益,并计算一轮统计量,涵盖答案一致性、提示间变化、正确性位置和奖励模型分数。Brown 等人 (2024)、Wu 等人 (2024)、Snell 等人 (2024) 报告推理时缩放增益随基座模型、后训练方法和任务域变化;相关分析表明 RLHF 和 BoN 也会改变输出多样性和泛化行为 (Kirk et al., 2024)。我们将配置写为 c=(πθ, RL, D, s),其中 πθ 是微调模型,RL 是后训练方法(包括监督微调 SFT),D 是任务域,s 是训练种子(若有多轮运行)。对于每个配置 c 和温度 T,训练好的模型产生一个补全分布。*Best\-of\-N* (BoN) 抽取 k 个样本并返回奖励模型下得分最高的一个;我们将其准确率记为 BoN@k。*多数投票*抽取 k 个样本并返回多数答案,准确率记为 MV@k。我们写 pass@1 表示相同 k 个样本上的平均正确率,这是单样本正确率的标准经验估计 (Chen et al., 2021)。 我们如何汇总增益。Best\-of\-N 改进的标准标量汇总为加法形式 G_add ≡ BoN@k − pass@1 (Cobbe et al., 2021; Brown et al., 2024)。我们将其作为主要目标,因为它计算每个提示额外正确的答案数量,同时我们考虑三种重参数化: - • G_mult ≡ BoN@k / pass@1(乘法形式), - • G_norm ≡ (BoN@k − pass@1) / (1 − pass@1 + ε_0)(剩余差距闭合比例;小常数 ε_0=0.1 在饱和单元附近避免分母为零), - • G_log ≡ log BoN@k − log pass@1(对数比率), 以及多数投票变体 G_MV ≡ MV@k − pass@1。所有四个属于单一类别。一个*增益函数*是指从 (BoN@k, pass@1) 到实数的任意映射 G: [0,1]^2 → ℝ;我们将针对奖励模型分数计算的增益称为*验证器锚定*,将针对多数投票计算的增益称为*投票锚定*。*Lipschitz 族*为 G_L = { G : G 在 [0,1]^2 上对某个有限 L_G 是 L_G\-Lipschitz 的 }。 (1) 加法增益 g(c,T) = BoN@k(c,T) − pass@1(c,T) (2) 在 [0,1]^2 上 Lipschitz 连续,常数为 L_g=√2。 协议率特征。协议率族测量每个提示处模型输出分布的集中程度。其成员包括协议率(样本中提取答案与最频繁答案一致的分数在所有提示上的平均值)、样本多样性度量(self\-BLEU (Yu et al., 2017)、唯一双词比率)、样本间的嵌入相似性分数以及模型样本对数概率的汇总 (Kadavath et al., 2022)。 方差细化。第二族针对协议率*在提示间的变化*,这是提示级平均值所遗漏的。其主要成员是*多数分数离散度*(每个提示最频繁答案分数的跨提示标准差),辅以基于方差和熵的汇总,加上一个带标签辅助的统计量:首个正确样本出现的中位数样本索引(完整列表见表 4)。这些细化补充了协议率族,带标签辅助的成员使标题预测器成为带标签验证集筛选工具而非无标签诊断器。 跨奖励模型特征。探索性的第三族比较两个奖励模型的分数并报告其不一致性;我们将其视为效能较低的稳健性检查而非主要组成部分(表 12)。相似文章
非洲语言NLI评估的样本量缩放
本文利用AfriXNLI基准测试,研究标注数据大小对16种非洲语言自然语言推理性能的影响。结果表明,缩放行为对语言敏感且通常非单调,挑战了常见的单调改进假设,并强调了需要为特定语言创建数据集以及更强的多语言策略。
神经语言模型的缩放规律
基础性实证研究,展示了语言模型性能与模型规模、数据集大小和计算预算之间的幂律缩放关系,对最优训练资源分配和样本效率有重要启示。
体积微小,效果显著:大语言模型中的缩放向量研究
本文系统地研究了LLM归一化层中的缩放向量,揭示了它们通过自放大预条件效应优化训练,并提出了三种轻量级改进方案,在几乎不增加开销的情况下提升性能和扩展行为。
大语言模型中的模型合并扩展定律
本文建立了语言模型合并的实证扩展定律,确定了模型规模、专家数量与性能之间的幂律关系,从而能够为最佳模型组合提供预测性规划。
测试时个性化:针对缩放失败的一种诊断框架与概率修正方法
本文提出了测试时个性化(TTP),这是一种通过候选采样和基于奖励的选择来扩展推理时计算,从而提升大语言模型(LLM)个性化能力的框架。该研究诊断了标准奖励模型中的失效模式,并提出了一种概率个性化奖励模型以缓解这些问题。