动态自适应采样:用于数学推理的自感知迭代数据持久优化

arXiv cs.CL 论文

摘要

SAI-DPO 引入了一个动态采样框架,在数学推理任务中根据模型不断演进的能力自适应调整训练数据,利用自感知难度指标和知识语义对齐在 AIME24 和 AMC23 等基准上以更少的数据实现最先进的效率。

arXiv:2505.16176v2 公告类型:替代交叉 摘要:在数学推理中,数据选择策略主要依赖于静态的外部定义指标,这些指标无法适应模型在训练期间不断演进的能力。这种不匹配限制了监督微调和强化学习的效率。为了弥补这一差距,我们引入 SAI-DPO(自感知迭代数据持久优化),这是一个动态采样框架,可将训练数据与模型的内在能力相对齐。SAI-DPO 引入了两个新颖的指标:知识语义对齐用于针对领域薄弱环节,自感知难度则从通过率和推理路径特征推导而出,用来相对于模型当前状态衡量实例的复杂度。通过根据实时反馈迭代重新校准数据分布,SAI-DPO 动态地将训练样本与模型不断演进的能力相对齐,确保数据与模型当前的能力水平保持严格相关。在八个基准上的广泛实验(包括 AIME24 和 AMC23)表明,SAI-DPO 相比静态基线的性能提升最多达近 6 个百分点,以显著更少的数据实现了最先进的效率。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 08:32

# 自我感知迭代数据持续优化用于数学推理 来源: https://arxiv.org/html/2505.16176

## 动态自适应采样:自我感知迭代数据持续优化用于数学推理

Rao Jun1, Liu Xuebo1, Deng Hexuan1, Lin Zepeng1, Yu Zixiong2, Wei Jiansheng2, Meng Xiaojun2∗, Zhang Min1

1哈尔滨工业大学(深圳)计算与智能研究院,中国
2华为大模型数据技术实验室

{rao7jun,zepenglin11,hxuandeng}@gmail.com, {liuxuebo,zhangmin2021}@hit.edu.cn
[email protected],{weijiansheng,xiaojun.meng}@huawei.com

###### 摘要

在数学推理中,数据选择策略主要依赖于静态的外部定义指标,这些指标无法适应模型在训练过程中不断演变的能力。这种错位限制了监督微调和强化学习的效率。为了解决这个问题,我们引入了SAI-DPO(自我感知迭代数据持续优化),这是一个动态采样框架,将训练数据与模型的内在能力相一致。SAI-DPO采用了两个新颖的指标:知识语义对齐(用于针对领域弱点)和自我感知难度(从通过率和推理路径特性推导,用于衡量相对于模型当前状态的实例复杂性)。通过基于实时反馈迭代地重新校准数据分布,SAI-DPO动态地将训练样本与模型不断演变的能力相一致,确保数据与模型当前的能力水平严格相关。在八个基准测试上的广泛实验(包括AIME24和AMC23)表明,SAI-DPO在大多数情况下比静态基准线高出近6个百分点,以显著更少的数据实现最先进的效率。

## 1介绍

参见图1:不同模型可以解决的问题的难度等级和知识范围差异显著。基础知识点对小模型来说是可以处理的,而复杂或高级内容则构成挑战。即使对于大型模型,这样的高级问题(微分)仍然困难,强调了将难度与能力相一致的重要性。因此,难度定义应该依赖于模型的当前能力。

近期大语言模型(LLM)的进展,特别是在推理任务中,强调了高质量数据的关键作用。然而,当前的数据选择范式仍然基本上是静态的,依赖于固定的数据集或外部难度评分者。这造成了根本的脱节:当模型学习时,曾经"难"的东西变成了"容易"的,使得静态数据集逐渐变得低效。继续在琐碎样本上训练会产生边际效应递减,而过于复杂的样本可能会导致幻觉。当前的工作主要关注在数据过滤或在线强化学习算法之后的监督微调(SFT)。这些方法大多是静态的,无法根据模型的当前能力自适应地选择适合持续训练的数据,因此限制了其推理能力的可持续改进。

如图1所示,不同的模型具有不同的能力,因此导致它们对问题的判别能力存在差异。尽管一些现有工作已经解决了难度对模型的影响,但相关指标仍然不清楚。为了解决推理数据缺乏动态自适应训练的问题,我们为数学推理提出了SAI-DPO(自我感知迭代数据持续优化)算法。该算法动态地选择与模型当前能力相匹配的训练数据(自我感知难度)和弱点(知识语义对齐),通过迭代增强其推理能力。使用定义的指标,该算法动态地选择数据并过滤低质量输入以增强训练效率。

我们对8个现有的公开数学测试集和4个公开模型(Qwen2.5-7B-Math-Base、Qwen2.5-Math-7B-SFT、Llama3.1-8B-Instruct和Qwen3-8B)进行了广泛的实验。我们的方法不仅相比原始DPO取得了更好的性能,也加快了训练过程。与一些当前常见的策略(如外部定义的难度和课程学习)相比,我们的策略有更好的结果。我们的结果表明,外部定义的难度与模型认为的难度不一致,用模型定义的难度进行训练更好。

我们的主要贡献如下:

- •我们提出了一个动态数据采集策略,通过聚类知识标签来系统地针对特定的弱点领域。
- •我们制定了一个自我感知难度指标,它集成了统计先验(通过率)与认知负荷指标(步数和长度),提供了对模型能力的细致视图。
- •我们通过广泛的实验证明,将数据难度与模型能力相一致会产生卓越的性能,在竞赛级别的基准测试(AIME24和AMC23)上相比强基准线提高了近4个百分点。

## 2相关工作

### 2.1训练后偏好优化

在训练后阶段,许多强化学习算法通过将模型的输出目标与人类偏好相一致来改进模型性能——具体来说,通过增加生成高质量响应的概率并降低生成低质量响应的概率。一个常见的算法是近端策略优化(PPO),已被应用于多个当前的LLM系统。最近,更强大的推理模型如KIMI K1.5、Deepseek V3和R1对PPO进行了修改,产生了GRPO和REINFORCE++等算法。尽管这些算法表现良好,但它们的实际部署往往因在线探索涉及的耗时性质而变得复杂。相比之下,一些离线方法更容易部署。直接偏好优化(DPO)使用偏好排名而不是奖励模型高效地训练大型模型以进行知识对齐。DPO优化来自偏好数据的分类损失,使其比强化学习从人类反馈更简单。一些论文通过从静态数据集转向迭代自我改进,集体推进LLM对齐,证明动态的在线反馈循环和重复的偏好优化显著提升了一般的指令跟随和复杂推理能力。SPHERE和IDPO采用了自我演化的迭代数据增强方法用于数学推理,称为在线DPO。与现有工作不同,我们通过模型对当前数据选择的自我判断来提高有效性,而不是通过算法。

### 2.2训练后数据策略

数据在解锁模型能力方面起着至关重要的作用。早期,LIMA发现少量数据可以激活模型的相关能力并改进多个任务的测试结果。最近,数学领域的一些数据选择也证明了数据质量和多样性的重要性。例如,S1和LIMO等选择虽然使用了少量数据,但设法刺激了模型的数学推理能力。KIMI K1.5采用了课程学习并构建了基于课程的数据训练策略。Pangu Ultra采用了基于课程的采样策略,并在其三个训练前阶段中都为数据分配了质量和难度标签。在这项工作中,我们探索了训练过程中的动态数据训练方法,旨在通过选择与模型自身能力相一致的训练数据来增强最终的强化学习性能。

参见图2:SAI-DPO框架。它作为一个迭代闭环运行,包含三个核心阶段:(1)指标校准:我们首先使用知识聚类将数据集映射到语义空间,同时使用模型的自我感知指标(通过率、步数和长度)定义实例复杂性。(2)动态采集:基于探测子集,我们识别弱点领域并重新加权采样分布Padjusted,优先考虑高错误率集群和适当的难度水平。(3)迭代优化:选定的课程被过滤以删除琐碎或难以处理的样本,并用于通过DPO更新模型策略。更新后的模型Mt+1随后重新评估数据池,为下一次迭代动态转移难度前沿。

## 3方法

### 3.1概览

如图2所示,系统按循环运行。在迭代t,当前模型Mt充当探测器来评估训练数据池D。通过利用两个不同的指标:知识语义对齐和自我感知难度,我们构建了一个动态课程Dtrain(t),该课程针对模型的具体弱点。然后通过偏好优化更新模型以产生Mt+1,为随后的循环转移难度前沿。

### 3.2指标定义

为了实现动态数据选择,我们引入了两个互补的指标:一个用于语义覆盖(问题是关于什么),一个用于内在复杂性(对当前模型来说有多难),如图2第1阶段所示。

#### 3.2.1知识语义对齐

有效的训练需要跨数学概念的多样性。我们将知识识别视为潜在语义聚类问题。

注释:我们采用专家模型为每个实例x生成显式知识标签T(x)(例如,几何、数列求和)。

嵌入和聚类:这些标签使用Sentence-Transformers(all-MiniLM-L6-v2)映射到向量空间。然后我们应用K-Means聚类将数据集分割为n个语义领域C={C1,C2,...,Cn}。这种粒度分割使我们能够检测和上采样模型表现出高错误率的特定领域。我们在附录A.2中提供了一些示例。

#### 3.2.2自我感知难度校准

与静态的外部难度评分者不同,我们将难度定义为模型与数据交互的函数。我们提出了一个分层难度指标,由三个维度组成:

##### 1)概率可解性(通过次数,主要指标)

我们对每个查询进行K次探索。通过次数(NoP)定义为正确响应的计数,作为难度的主要代理。较低的NoP表示更高的不确定性和难度。我们将"可解范围"定义为模型既不一致正确也不一致不正确的问题。具体来说,这包括通过次数为0<|User|>以下问题需要涉及哪些知识点。答案应以以下格式输出,无需输出答案,用英文回复,###知识点:{}\\textbackslash\n请直接输出结果,减少思考过程。{input}<|Assistant|>###知识点:"其中{input}是一个占位符,表示输入问题。如图所示(标签案例),第二个和第三个示例都涉及三角学,表明重复的知识点。通过利用此标记,我们可以更好地识别具有相似知识点的数据,从而通过定位模型当前在其中具有弱点的知识点的示例问题来启用自我学习。

### A.3问题解决步骤的示例

我们呈现了几个模型的输出结果,这些模型可以通过添加字段"步骤:1"自动继续以该格式生成回复。我们呈现了再

相似文章

通过过程监督改进数学推理

OpenAI Blog

OpenAI 展示了过程监督——对中间推理步骤而非仅对最终答案进行奖励——如何改进数学推理,同时降低对齐成本。这种方法在不牺牲模型性能的前提下,产生更易解释、更符合人类价值观的推理过程。

DiPO:基于解耦困惑度的策略优化,实现细粒度探索-利用权衡

Hugging Face Daily Papers

# 论文页面 - DiPO:基于解耦困惑度的策略优化,实现细粒度探索-利用权衡 来源:[https://huggingface.co/papers/2604.13902](https://huggingface.co/papers/2604.13902) 作者:,,,,,,,,,, ## 摘要 一种面向大语言模型的新型强化学习方法,通过基于困惑度的样本划分与双向奖励分配机制,解决探索-利用权衡问题。[强化学习](https:

ATTNPO: 用于高效推理的注意力引导过程监督

arXiv cs.CL

ATTNPO 引入了一个注意力引导的过程监督框架,通过利用内在的注意力信号进行步级信用分配,减少大型推理模型的过度思考,在 9 个基准测试中实现了更好的性能和更短的推理长度。

通过混合层蒸馏和关键信息的逐步注意力改进小模型的推理能力

arXiv cs.CL

本文提出一种新颖的思维链蒸馏框架,通过混合层模块的动态层对齐,将教师模型对关键信息的逐步注意力转移到学生模型中。该方法通过明确指导学生模型在推理过程中逐步聚焦关键信息,在数学和常识推理基准测试中实现了一致的性能提升。

TEMPO:为大推理模型扩展测试时训练

Hugging Face Daily Papers

TEMPO 提出一种测试时训练框架,在策略微调与评判器再校准之间交替,防止多样性崩塌并持续放大推理模型的性能,将 Qwen3-14B 在 AIME 2024 上的得分从 42.3% 提升至 65.8%。