推理监督的哪些特性与下游模型质量的提升相关?

arXiv cs.AI 论文

摘要

本文研究内在数据指标,以在代价高昂的微调之前预测推理监督的效用,发现较小的模型受益于对齐导向的指标,而较大的模型则从冗长跟踪中获益,从而建立了一个尺度感知的框架来验证推理数据集。

arXiv:2605.13290v1 Announce Type: new 摘要:验证推理模型的训练数据通常需要昂贵的试错微调周期。在这项工作中,我们研究了是否可以在训练之前使用内在数据指标可靠地预测推理数据集的效用。我们提出了一套定量指标,并通过在波兰语推理数据集的不同语义变体上微调8B和11B模型来评估它们的预测能力。我们的分析表明,这些内在指标与下游模型性能表现出强烈且显著的相关性。关键的是,我们发现效用的预测因子是尺度依赖的:较小的模型依赖对齐导向的指标来确保精确性,而较大的模型则从高冗余中受益,利用冗长的跟踪来解决复杂任务。这些发现建立了一个尺度感知的框架来验证推理数据,使从业者能够选择有效的训练集,而无需进行详尽的实证测试。
查看原文
查看缓存全文

缓存时间: 2026/05/14 06:15

# 何种推理监督属性与改进的下游模型质量相关? 来源:https://arxiv.org/html/2605.13290

11institutetext:弗罗茨瓦夫理工大学,50-370 波兰弗罗茨瓦夫  
11email:\{mikolaj.langner, dzmitry.pihulski, jan.eliasz, michal.rajkowski, kazienko, maciej.piasecki, jan.kocon, teddy.ferdinan\}@pwr.edu.pl

Dzmitry Pihulski  
Jan Eliasz  
Michał Rajkowski  
Przemysław Kazienko  
Maciej Piasecki  
Jan Kocoń  
Teddy Ferdinan

###### 摘要

验证推理模型的训练数据通常需要昂贵的试错微调循环。在这项工作中,我们研究了是否可以在训练之前,使用内在数据指标可靠地预测推理数据集的效用。我们提出了一套定量衡量指标,并通过在波兰语推理数据集的语义不同变体上微调8B和11B模型来评估它们的预测能力。我们的分析表明,这些内在指标与下游模型性能之间存在强烈且显著的相关性。关键的是,我们发现效用的预测因子具有尺度依赖性:较小的模型依赖于对齐导向的指标来确保精确性,而较大的模型则受益于高冗余度,利用冗长的轨迹来解决复杂任务。这些发现建立了一个尺度感知的推理数据验证框架,使从业者能够选择有效的训练集,而无需进行详尽的实证测试。

## 1 引言

显式推理策略[36 (https://arxiv.org/html/2605.13290#bib.bib3)]和专用模型[26 (https://arxiv.org/html/2605.13290#bib.bib24),12 (https://arxiv.org/html/2605.13290#bib.bib25)]已经改变了大型语言模型(LLMs)的能力。因此,在富含推理轨迹的数据集上进行微调已成为赋予这些模型此类技能的标准范式。然而,尽管高质量数据的重要性得到普遍认可,但推理轨迹的质量定义仍然模糊不清。目前,验证推理数据集是一个低效的过程,依赖于事后评估:研究人员必须微调一个模型才能发现他们的数据是否有效。这种“训练即验证”的方法在计算上代价高昂且不可扩展。为了推动稳健推理模型的民主化发展,社区需要客观且可计算的指标,能够在昂贵的微调过程开始之前验证训练数据的效用。

在本文中,我们通过建立内在数据特征与下游模型性能之间的联系来填补这一空白。我们利用先前工作中的一组受控波兰语推理变体[29 (https://arxiv.org/html/2605.13290#bib.bib5)]以及相应的微调后8B和11B模型。通过对这些已知推理变体进行一系列严格的定量测量,从语言复杂性到语义对齐,我们确定哪些指标可以作为模型最终推理能力的可靠预测因子。我们的分析围绕以下研究问题进行:

1. RQ1:在微调之前验证数据效用是否可行?
2. RQ2:哪些具体的定量测量指标为验证训练数据质量提供了最有意义的信号?

本工作的贡献如下:(1) 对推理数据集的验证指标进行系统评估,区分表面统计指标与深层语义指标;(2) 建立训练前数据得分与下游性能之间的相关性分析;(3) 一个尺度感知的推理数据选择框架,使研究人员能够在不承担完整训练成本的情况下估计模型性能。

### 1.1 相关工作

生成的推理轨迹的具体效用仍是一个活跃争论的话题。Shojaee等人[32 (https://arxiv.org/html/2605.13290#bib.bib11)]认为,推理增强模型常常表现出虚幻的改进,在复杂任务上灾难性地失败,同时在简单任务上过度思考。尽管Lawsen等人[20 (https://arxiv.org/html/2605.13290#bib.bib12)]基于方法论差异对这些发现提出质疑,但共识仍然是推理轨迹并非万灵药。此外,研究表明,LLM的推理往往偏离真正的逻辑推理[7 (https://arxiv.org/html/2605.13290#bib.bib32),5 (https://arxiv.org/html/2605.13290#bib.bib33),17 (https://arxiv.org/html/2605.13290#bib.bib34),38 (https://arxiv.org/html/2605.13290#bib.bib56),3 (https://arxiv.org/html/2605.13290#bib.bib53),10 (https://arxiv.org/html/2605.13290#bib.bib57),6 (https://arxiv.org/html/2605.13290#bib.bib55),29 (https://arxiv.org/html/2605.13290#bib.bib5)],模型经常省略前提或生成与最终答案准确性不相关的幻觉推理步骤。

最近的工作试图隔离推理数据中驱动性能的特定属性,特别是序列长度。Jin等人[16 (https://arxiv.org/html/2605.13290#bib.bib38)]认为,无论质量如何,延长推理长度都能提升性能。相反,Wu等人[39 (https://arxiv.org/html/2605.13290#bib.bib30)]展示了一个倒U型关系,表明过长会导致错误累积。总的来说,这些相互矛盾的发现表明,无论是推理的长度还是存在性,都不足以单独作为训练数据效用的代理指标。

尽管先前的工作主要通过分析模型输出来评估推理质量,但对于在投入计算资源进行微调之前评估推理数据的验证方法研究不足。我们的工作通过将内在数据指标与我们先前实验中建立的下游性能相关联来填补这一空白。

参见图注  
图1:我们将 Mixture-of-Thoughts[13 (https://arxiv.org/html/2605.13290#bib.bib13),23 (https://arxiv.org/html/2605.13290#bib.bib15),27 (https://arxiv.org/html/2605.13290#bib.bib14),2 (https://arxiv.org/html/2605.13290#bib.bib16)] 的一个子集翻译成波兰语,并将其分为训练集 (MoT-PL) 和评估集 (MoT-PL-eval)。通过仅改写每个示例的推理部分,创建了另外三个 MoT-PL 变体:“总结”风格使推理更加简洁,“婴儿思维”风格大大简化了推理,“冗长”风格延长了推理。之后,我们分别在这些数据集上微调了 PLLuM-8B-instruct 和 Bielik-11B-v2.6-Instruct,并进行了评估。

## 2 实验设置

### 2.1 数据集

为了严格评估训练前验证指标的效能,我们使用了源自波兰语混合思维 (MoT-PL) 的四个不同推理数据集。原始的 MoT-PL 数据集是通过从英语 Mixture-of-Thoughts 集合[13 (https://arxiv.org/html/2605.13290#bib.bib13)]中采样约 32,000 个示例,并使用 DeepSeek-V3[9 (https://arxiv.org/html/2605.13290#bib.bib17)] 翻译成波兰语创建的。在过滤掉错误和上下文长度后,最终数据集包含 22,571 个示例,涵盖三个领域:数学 (28%)、编程 (17%) 和科学 (55%)。为了确保生成的轨迹具有自然的、类人的流畅性,而非僵硬的机器翻译痕迹,我们由母语为波兰语的人员手动验证了 DeepSeek-V3 输出的一个随机采样子集。

基于这个基础数据集,我们生成了四个语义不同的变体作为我们的控制变量(见图1 (https://arxiv.org/html/2605.13290#S1.F1))。这些数据集,“详细”、“总结”、“婴儿思维”和“冗长”,共享相同的用户提示和最终答案,但在推理轨迹的风格、长度和语义密度上差异显著。数据集变体的一般统计数据见表1 (https://arxiv.org/html/2605.13290#S2.T1)。这些变体是通过使用 DeepSeek-V3 进行自动改写生成的,具有以下特征:

- **详细**:未经修改的 MoT-PL 数据集,代表高质量的标准推理。轨迹模仿原始英语 Mixture-of-Thoughts 的深度,作为我们“标准”推理密度的对照组。
- **总结**:一个简洁的变体,其中推理轨迹被压缩以保留基本逻辑,同时去除风格化的修饰。该数据集测试了信息密度更高与效率更高相关的假设。
- **婴儿思维**:一个被改写为“孩童般”语言的变体。该提示并非仅仅降低统计可读性,而是故意用模糊的填充词混淆具体细节和计算。原始思路和结构被严格保留,以避免引入人工幻觉或新的推理谬误。
- **冗长**:一个人为延长的变体,长度大约是“详细”版本的两倍。它保留了原始逻辑,但引入了冗长,使我们能够测试偏好更长链的指标是否具有误导性。

表1:用于指标验证的数据集变体的统计数据概况。所有变体共享相同的问题/答案对;差异严格存在于推理轨迹内。标记计数的第一个值来自使用 PLLuM-8B-instruct 分词器,第二个值来自使用 Bielik-11B-v2.6-Instruct 分词器。所有超过上下文窗口限制 (32k 标记) 的示例均在进行统计分析和训练之前被过滤掉,以确保所有变体的评估一致性。

### 2.2 目标模型

为了在不同架构上建立稳健的性能基线,我们使用了两个最先进的以波兰语为中心的 LLM 作为实验骨干:

- **PLLuM-8B-instruct**[18 (https://arxiv.org/html/2605.13290#bib.bib8),28 (https://arxiv.org/html/2605.13290#bib.bib9),19 (https://arxiv.org/html/2605.13290#bib.bib7)]:Llama-3.1-8B[11 (https://arxiv.org/html/2605.13290#bib.bib10)] 的衍生模型,通过在海量波兰语语料库上进行持续预训练和指令微调进行了适配;
- **Bielik-11B-v2.6-Instruct**[25 (https://arxiv.org/html/2605.13290#bib.bib39)]:基于 Mistral 7B v0.2[15 (https://arxiv.org/html/2605.13290#bib.bib40)],同样通过波兰语特定的预训练和微调进行了增强。

由于这些模型本身不具备原生推理能力,我们通过引入特殊标记 `<reasoning>` 和 `</reasoning>` 并扩展其嵌入层来适配它们。这些模型分别对四个数据集变体(第2.1节 (https://arxiv.org/html/2605.13290#S2.SS1))进行微调,从而产生一组具有不同推理行为的检查点。技术规格详见附录8 (https://arxiv.org/html/2605.13290#S8)。

### 2.3 下游性能基准

为了衡量训练数据变体的效用,我们在一套全面的基准测试集上评估了微调后的模型。这些评估分数作为“真实标签”,我们将其与我们的训练前数据指标进行相关性分析。我们选择了四个不同的基准测试来捕捉推理和语言理解的不同方面:

- **MoT-PL-eval**:我们 MoT-PL 数据集的留出测试集(见第2.1节 (https://arxiv.org/html/2605.13290#S2.SS1)),作为波兰语推理的主要领域内指标。
- **Belebele**[1 (https://arxiv.org/html/2605.13290#bib.bib35)]:一个具有挑战性的多语言阅读理解基准,测试模型从复杂段落中提取信息的能力。
- **Aya Collection**[33 (https://arxiv.org/html/2605.13290#bib.bib36)]:一个广泛的指令遵循套件,涵盖摘要、分类和问答,用于验证通用能力的保持。
- **LightR1**[37 (https://arxiv.org/html/2605.13290#bib.bib37)]:一个用于高难度逻辑任务的英语基准,用于评估跨语言推理的迁移能力。

### 2.4 评估协议

为了获得相关性分析所需的真实性能分数,我们在上述四个基准测试上评估了所有微调后的模型。对于每个数据集,我们采样了一个分层测试集,包含 900 个示例,以确保推理长度和任务类型的平衡覆盖。我们使用两个主要指标报告每个模型的性能:绝对准确率和相对于基础模型的相对百分比变化,以隔离训练数据的具体影响。

考虑到评估的规模,我们采用了“LLM 作为评判者”范式。我们使用 DeepSeek-R1-0528[12 (https://arxiv.org/html/2605.13290#bib.bib25)] 作为预言机评判者。评判者被严格提示根据真实答案评估最终答案的正确性(忽略中间推理步骤)。这个二元决策过程应用于所有基准测试。为确保这些生成分数的可靠性,我们对 MoT-PL-eval 数据集中 100 个随机样本的子集进行了人工审核。一位人类专家对这些样本进行了盲审(未看到模型的判断)。人类标注者与 DeepSeek-R1-0528 之间的一致率为 95%,Cohen's Kappa 得分为 0.886。这种强一致性证实了我们的自动真实标签是人类评估的可靠代理。

在评估过程中,向评判者提供查询、参考答案和模型预测,并指示其以受限的 JSON 格式输出二元决策。所有基准测试的确切提示模板可在我们的公共仓库中找到:111https://github.com/DzmitryPihulski/prompts。

## 3 方法学

为了系统地评估推理数据在训练前的效用,我们提出了一个多维验证框架。我们将指标分为两个不同的组:基于模型的指标和分析性指标。通过基于模型的指标,我们旨在评估推理轨迹的逻辑完整性。我们采用了[21 (https://arxiv.org/html/2605.13290#bib.bib18)]提出的 FVCU(事实性、有效性、连贯性、效用性)分类法用于这些指标。同时,我们设计了分析性指标来衡量文本的统计和结构属性。

### 3.1 基于模型的指标

为了在二元正确性之外评估推理步骤的内在质量,我们实现了一个基于 FVCU 分类法(事实性 Factuality、有效性 Validity、连贯性 Coherence、效用性 Utility)[21 (https://arxiv.org/html/2605.13290#bib.bib18)] 的自动化评估管道。该方法验证推理过程本身在原子层面上是否合理。我们使用一个两阶段管道,包括一个“原子化器”和一个“评判者”,两者均由 Qwen3-235B-A22B-Instruct-2507-FP8[30 (https://arxiv.org/html/2605.13290#bib.bib22)] 驱动。

1. 1. **原子化器**:使用严格的逐字提取策略将原始推理轨迹分解为原子步骤。这保留了文本的原始密度和风格,与过程监督标准[22 (https://arxiv.org/html/2605.13290#bib.bib21)]保持一致。
2. 2. **评判者**:逐个评估每个步骤是否符合 FVCU 分类法。

##### 指标定义

- **事实性 (FF)**:使用主要知识基础法[14 (https://arxiv.org/html/2605.13290#bib.bib19)]评估与前提和外部事实的一致性,确保步骤受到显式问题陈述的支持,而非幻觉约束。
- **有效性 (VV)**:评估推导的数学和推理性正确性。它区分了计算错误和逻辑谬误。
- **连贯性 (CC)**:检查步骤是否在逻辑上遵循前一步,没有间隙,满足链的马尔可夫性质[35 (https://arxiv.org/html/2605.13290#bib.bib20)]。

相似文章

通过过程监督改进数学推理

OpenAI Blog

OpenAI 展示了过程监督——对中间推理步骤而非仅对最终答案进行奖励——如何改进数学推理,同时降低对齐成本。这种方法在不牺牲模型性能的前提下,产生更易解释、更符合人类价值观的推理过程。

监控内部独白:探针轨迹揭示推理动态

Hugging Face Daily Papers

本文介绍了一种通过分析探针轨迹(即概念概率在生成token上的演变)来监控大型推理模型推理过程的方法。该方法利用隐藏表示中的时间特征和信号处理特征,更好地预测未来模型行为,通过最大池化达到了高达95%的AUROC。

解码大型推理模型中的批判机制

Hugging Face Daily Papers

本文研究大型推理模型如何在内部检测并纠正自身错误,识别出一个高度可解释的批判向量,该向量无需额外训练即可增强错误检测能力,并提升测试时扩展性能。