关于预测预训练大语言模型(LLM)的后训练潜力

arXiv cs.CL 论文

摘要

本文介绍了 RuDE,这是一种通过利用响应鉴别力来预测预训练大语言模型(LLM)后训练潜力的框架,旨在解决 MMLU 等传统基准测试的局限性。

arXiv:2605.11978v1 公告类型:新论文 摘要:大型语言模型(LLMs)在下游任务上的表现从根本上受限于其在预训练阶段习得的能力。然而,像 MMLU 这样的传统基准测试往往无法反映基础模型在复杂开放式场景中的可塑性,从而导致模型选择效率低下。为此,我们引入了预测后训练潜力的新任务——即在模型进行后训练之前预测其基础模型的性能。我们提出了 RuDE(基于评分标准的判别式评估),这是一个统一的框架,通过利用响应鉴别力来绕过基础模型的生成差距。在我们系统性的 4C 分类法的指导下,RuDE 通过细粒度的评分标准违规,在多个领域构建受控的对比样本对。大量实验表明,RuDE 与后训练性能的相关性超过 90%。至关重要的是,通过强化学习(RL)的验证证实,RuDE 能够有效识别出那些表现优于更大规模模型的、具有高潜力的小型模型,为基座模型的开发提供了一种计算高效的机制。
查看原文
查看缓存全文

缓存时间: 2026/05/13 06:20

# 论预测预训练大语言模型的后训练潜力

来源: https://arxiv.org/html/2605.11978

Xiaoyuan Li¹, Yubo Ma²¹¹脚注标记:1, Kexin Yang², Moxin Li³, Keqin Bao¹, Wenjie Wang¹, Fuli Feng¹, Dayiheng Liu²  
¹中国科学技术大学 ²阿里巴巴集团 ³新加坡国立大学

###### 摘要

大语言模型(LLMs)在下游任务上的表现从根本上受限于其在预训练阶段获得的能力。然而,像 MMLU 这样的传统基准测试往往无法反映基础模型在复杂开放场景中的可塑性,导致模型选择效率低下。为此,我们引入了一个新任务——预测**后训练潜力**,即在模型经过后训练之前预测其性能。我们提出了 **RuDE**(基于评分标准的判别式评估,Rubric-based Discriminative Evaluation),这是一个统一框架,通过利用响应判别能力来绕过基础模型的生成差距。在我们的系统性 **4C 分类法**指导下,RuDE 通过细粒度的评分标准违规,在不同领域构建受控的对比样本对。大量实验表明,该框架与后训练性能的相关性超过 90%。至关重要的是,通过强化学习(RL)的验证证实,RuDE 能有效识别出那些在后训练后表现优于更大规模模型的高潜力小模型,为基础模型的开发提供了一种计算高效的机制。

## 1. 引言

大语言模型(LLMs)的开发通常遵循两阶段流水线:首先是**预训练**,然后是**后训练**(Yanget al., 2025; Teamet al., 2025a; Liuet al., 2025a)。在大型文本语料库上的预训练使 LLM 能够捕捉语言模式并存储广泛的知识(Radfordet al., 2018)。随后,后训练使 LLM 能够遵循人类指令(Raffelet al., 2020)、对齐人类偏好(Ouyanget al., 2022)并执行复杂推理任务(Shaoet al., 2024),从而释放预训练阶段捕获的潜在能力。最近的研究表明,后训练后的表现很大程度上取决于预训练阶段获得的能力(Yueet al., 2025; Ghoshet al., 2024; Zhouet al., 2023a)。因此,选择最优的预训练模型对于有效的后训练以及节省计算资源至关重要。

然而,在如何预先评估预训练模型的有效后训练潜力方面,仍存在一个关键的研究空白。现有的评估通常使用多项选择题知识基准(如 MMLU)上的准确率(Hendryckset al., 2021)或困惑度指标(Zenget al., 2025b)来衡量预训练模型的质量。然而,这些指标不足以捕捉模型的**后训练潜力**——即其在后训练任务上的预期表现,这些任务通常是开放式的,需要复杂的指令遵循能力和对人类意图的理解。我们观察到,预训练模型在多项选择题知识基准上的高表现与其在开放式指令遵循任务上的后训练性能相关性较弱(*参见*图 1)。这促使我们研究以下问题:

我们如何评估预训练模型在不同任务上的相对后训练潜力?

在解决这一问题时,我们确定了以下挑战:(1)**生成差距**:预训练模型针对下一个 token 预测进行了优化,通常缺乏响应开放式查询的指令遵循能力(Zhouet al., 2023a),这使得直接评估具有挑战性。(2)**统一目标评估**:与可以通过精确答案匹配进行评估的多项选择题不同,开放式响应涉及多样化的标准,如格式、有用性和事实正确性。因此,需要一个通用的评估框架来量化不同任务中的这些目标(Lianget al., 2023)。

为了解决第一个挑战,受**生成-评估一致性**假设的启发(Liuet al., 2025b),我们根据预训练模型区分偏好响应和不偏好响应的能力,来估算其生成理想开放式响应的能力。为了解决第二个挑战,我们引入了 **4C 分类法**,为评估四个不同方面的开放式生成提供了系统框架:**能力(Competence)**、**内容(Content)**、**控制(Control)** 和 **合规(Compliance)**。后训练任务使用由这些方面的特定任务组合构建的判别式响应集进行评估,使框架能够适应多样化的任务。

为此,我们提出了 **RuDE**(基于评分标准的判别式评估),这是一个用于评估预训练模型在不同任务上相对后训练潜力的统一框架。我们首先手动定义 4C 分类法每个方面的细粒度评分标准,*即*评估标准。为了进行全面评估,我们将四个开放式数据集适配为响应判别格式,涵盖多个领域:医疗、法律与金融、复杂指令遵循和创意写作,并为每个任务定义评分标准集。我们提出了一个生成器-验证器流水线来自动构建判别式响应集,其中偏好响应满足所有评分标准,而不偏好响应则违反某些标准。对预训练模型的评估结果显示,其完全指令微调后的性能与 Pearson 相关系数大于 90%。强化学习(RL)实验进一步验证了我们的方法,显示被预测具有更高潜力的小规模预训练模型(Qwen3-4B-Base)在后训练后确实优于更大的对应模型(Qwen2.5-7B-Base)。我们的贡献总结如下:

- 我们引入了评估预训练 LLM 后训练潜力的新任务。
- 基于我们的 4C 分类法,我们提出了一个统一的评估框架,通过基于评分标准的响应判别来评估不同任务的后训练潜力。
- 我们在多个模型上对指令微调和 RL 进行了大量实验,证明了 RuDE 的强大有效性。

## 2. 任务公式化

在本节中,我们将评估后训练潜力的任务形式化。我们首先将问题定义为预训练模型上的排名任务(§2.1)。然后,我们引入判别式评估作为解决生成差距的代理方法(§2.2)。最后,我们陈述了将判别能力与预测后训练潜力联系起来的核心假设(§2.3)。

### 2.1 问题定义

后训练模型的性能很大程度上由其预训练基础决定,但目前尚无可靠的方法来预测哪个预训练模型在后训练后表现最佳。我们将此形式化为一个排名问题。

考虑一组预训练基础模型 $\Theta=\{\theta_1,\dots,\theta_n\}$ 和一个目标后训练任务 $T$。令 $\texttt{PostTrain}(\theta,T)$ 表示通过对基础模型 $\theta$ 在任务 $T$ 上应用后训练算法(*例如* RL)得到的模型,并令 $S_{\text{gen}}(\texttt{PostTrain}(\theta,T))$ 为在开放式评估上得到的生成性能得分。

我们的目标是找到一个仅能在基础模型上计算的**评分函数** $S(\theta,T)$,使得由 $S$ 在 $\Theta$ 上诱导的排名与后训练后由 $S_{\text{gen}}$ 诱导的排名一致:

$$
S(\theta_i,T) > S(\theta_j,T) \implies S_{\text{gen}}(\texttt{PostTrain}(\theta_i,T)) > S_{\text{gen}}(\texttt{PostTrain}(\theta_j,T)) \quad (1)
$$

可靠的评分函数 $S$ 将允许从业者在无需昂贵试错后训练的情况下选择最有前景的基础模型。

如图 1 所示,现有用于基础模型质量的代理指标——如 MMLU 等多项选择基准上的准确率——与开放式任务上的后训练性能相关性较弱,因为它们衡量的是知识回忆,而不是模型产生对齐、高质量响应 的能力。这促使我们寻找更具预测性的评分函数。

> **图 1:相关性分析:传统基准 vs. 后训练性能。** X轴代表基础模型在广泛使用的知识基准上的准确率,Y轴表示相应模型在指令微调后在 HealthBench 上的后训练性能。它们之间的皮尔逊相关系数(corr)表明相关性较弱,证明传统基准无法预测特定领域的后训练潜力。

### 2.2 作为代理的判别式评估

引言中确定的第一个挑战是**生成差距**:针对下一个 token 预测进行优化的预训练模型通常无法遵循指令或生成结构良好的开放式响应(Zhouet al., 2023a)。这使得直接在后训练任务上评估其生成质量变得不切实际。

为此,受**生成-评估一致性**假设的启发(Liuet al., 2025b),我们从评估模型能*生成*什么转变为评估其能*判别*什么。关键见解是,模型区分偏好响应和不偏好响应的能力反映了其对质量的内部化理解——即使它目前还不能自己生成此类响应。从直接偏好优化(DPO)(Rafailovet al., 2023)的角度来看,基础模型作为初始参考策略,后训练将其分布调整向偏好响应。一个已经对偏好响应分配更高似然的基础模型在优化过程中面临的分布偏移较小,意味着更高的后训练潜力。

我们通过测量基础模型是否始终根据条件对数似然将偏好响应 $y^+$ 排名高于不偏好响应 $y^-$ 来实现这一操作。令 $\ell_{\theta}(y|x)$ 表示模型 $\theta$ 在给定提示 $x$ 时赋予响应 $y$ 的对数似然。给定针对任务 $T$ 构建的对比样本对集合 $\{(x,y^+,y^-)\}$,我们定义判别式得分:

$$
S_{\text{dis}}(\theta,T) = \mathbb{E}_{(x,y^+,y^-)}[\mathbb{I}(\ell_{\theta}(y^+|x) > \ell_{\theta}(y^-|x))] \quad (2)
$$

其中 $\mathbb{I}$ 是指示函数。$S_{\text{dis}}$ 测量基础模型正确地将偏好响应排名更高的对比样本对的比例,反映其在后训练之前对响应质量的内部化理解程度。

### 2.3 GD-潜力假设

基于上述公式化,我们提出了 **GD-潜力假设**(Generative-Discriminative Potential):*预训练模型的判别式得分与其后训练生成性能呈强正相关。* 形式化如下:

$$
\rho\left(S_{\text{dis}}(\theta,T), \; S_{\text{gen}}(\texttt{PostTrain}(\theta,T))\right) \gg 0 \quad (3)
$$

其中 $\rho$ 表示在一群基础模型上计算的皮尔逊相关系数。

如果该假设成立,$S_{\text{dis}}$ 就充当了 §2.1 中定义的所需评分函数 $S$,使从业者能够在不实际进行后训练的情况下预测后训练潜力。

## 3. RuDE 框架

> **图 2:RuDE 构建流水线概览。** 该框架在三个阶段运行以合成高质量的对比样本对。阶段 1 生成标准响应($y^+$),阶段 2 通过受控退化过程产生难负样本($y^-$)。最后,阶段 3 将这些样本配对并随机化其位置(A/B),以形成判别式评估任务。

为了经验性地验证 **GD-潜力** 假设,我们引入了 **RuDE**(基于评分标准的判别式评估)。它通过严格的验证器引导迭代流水线构建,以确保每个判别式任务都基于细粒度的对齐评分标准。

### 3.1 迭代式评分标准扰动构建

我们方法的核心是合成对比样本对 $(y^+,y^-)$,它们仅在特定的、受控的对齐维度上有所不同。为了实现这种精度并消除混杂因素,我们实施了一个涉及强生成器($\mathcal{G}$, Gemini-3-Pro (Comaniciet al., 2025))和严格验证器($\mathcal{V}$, GPT-4.1 (Singhet al., 2025))的流水线¹¹¹ 遵循 HealthBench (Aroraet al., 2025) 建立的评估协议,我们采用 GPT-4.1 作为验证器来评估评分标准合规性。HealthBench 已验证其在基于评分标准的评估中与人类专家判断的高度相关性。该过程分三个阶段进行,如图 2 所示:

#### 阶段 1:通过验证器引导迭代细化合成正样本。

目标是生成一个完美满足所有评分标准 $\mathcal{R}_{all}$ 的响应 $y^+$。给定查询 $q$ 和 $\mathcal{R}_{all}$,$\mathcal{G}$ 生成响应 $y_t$,然后 $\mathcal{V}$ 根据 $\mathcal{R}_{all}$ 中的每个评分标准评估 $y_t$。²²² $\mathcal{R}_{all}$ 包含两类:正评分标准(必须存在的特征)和负评分标准(必须避免的特征)。在我们的流水线中,“完美满足”定义为 $\mathcal{V}$ 对所有正评分标准预测为 True 且对所有负评分标准预测为 False 的状态。

- **反馈循环**:如果违反任何评分标准 $r \in \mathcal{R}_{fail}$,$\mathcal{V}$ 生成结构化反馈 $\mathcal{E}$ 解释失败原因。元组 $(q, \mathcal{R}_{all}, \mathcal{R}_{fail}, \mathcal{E}, y_t)$ 被反馈给 $\mathcal{G}$ 以进行纠正。
- **终止**:此循环迭代继续,直到 $\mathcal{V}$ 确认所有评分标准 $\mathcal{R}_{all}$ 都得到满足,从而产生正样本 $y^+$。

#### 阶段 2:通过受控退化循环合成负样本。

目标是合成一个“

相似文章

MLUBench: 多模态大语言模型终身遗忘评估基准

arXiv cs.AI

MLUBench 是一个大规模的多模态大语言模型终身遗忘基准,包含9个类别的127个实体。论文指出现有遗忘方法存在累积退化问题,并提出 LUMoE 来缓解此问题,显示出显著改进。

后训练中的忽视免费午餐:LLM代理的进度优势

Hugging Face Daily Papers

本文介绍了“进度优势”,一种从强化学习后训练中推导出的隐式优势函数,能够为LLM代理提供有效的步骤级评分,而无需进行专门的奖励模型训练。它在多个基准测试和模型系列上优于基于置信度的基线和训练好的奖励模型。

预训练期间的RL探索:重新审视LLM训练的策略优化

arXiv cs.LG

哈佛大学的研究人员挑战了标准的LLM训练流程,证明强化学习可以在预训练期间有效应用,而不仅仅是在SFT之后。他们发现数据组成比模型规模更重要,并提出并行平均RL和SFT目标的方法,该方法在所有讨论的其他训练方法中表现出色,跨所有指标均优于它们,同时保持了通用能力。