基于Neuron-Activated Graph的目标导向预训练数据选择

arXiv cs.CL 2026/04/20 04:00 论文

摘要

本文介绍了Neuron-Activated Graph (NAG) Ranking，一种无需训练的框架，用于选择与目标任务对齐的预训练数据，通过识别并基于神经元激活模式的相似性对候选数据进行排序。该方法相较于随机采样平均提升了4.9%，并证明了稀疏神经元模式能够捕获目标学习的功能能力。

arXiv:2604.15706v1 公告类型: 新摘要: 日常任务都有其目标，围绕该目标进行预训练是让模型成为专家的关键。本文研究目标导向的语言模型（LM）预训练，引入了Neuron-Activated Graph Ranking（基于NAG的排序），这是一种无需训练且可解释的框架，用于目标预训练数据选择。我们的方法不使用黑盒表征，而是直接通过任何现成LLM中一组稀疏的高影响神经元来表征每个目标输入。具体来说，我们量化神经元影响，并选择跨层最具影响力的神经元，组成紧凑的Neuron-Activated Graph（NAG），然后根据NAG与目标示例的相似性对候选数据进行排序。我们在六个基准上进行了实验，基于NAG的排序相较于随机采样平均提升了4.9%，并在HellaSwag上以5.3%的准确率超越了最先进的基线。在更适用的多目标设置下，我们的最佳配置分别超越了两个基线1.1%和4.1%。此外，我们对NAG的工作原理进行了全面分析，例如，停用NAG选择的神经元（仅占全部的0.12%）会导致性能下降23.5%，而将NAG限制在最后一层会导致平均下降4.1%，这表明NAG捕获了一个稀疏的“功能骨干”用于学习目标特征。我们在https://github.com/asillycat/NAG发布了代码。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/20 08:28

# 面向目标的预训练数据选择：基于神经元激活图的排序方法

来源：https://arxiv.org/html/2604.15706

作者：Haoqin Tu, Weidong Zhou, Yiyang Zhou, Xiaohuan Zhou, Bingni Zhang, Weiguo Feng, Taifeng Wang, Cihang Xie, Fengze Liu

###### 摘要

日常任务都带有特定目标，围绕这些目标进行预训练才能使模型成为该领域的专家。在本文中，我们通过引入**神经元激活图排序**（基于NAG的排序）来研究面向目标的语言模型（LM）预训练方法。这是一个无需训练且可解释的框架，用于选择面向目标的预训练数据。我们的方法不依赖黑盒表示，而是直接通过任何现成大语言模型（LLM）中的一组稀疏高影响神经元来表征每个目标输入。具体地，我们量化每个神经元的影响，跨层选择最具影响力的神经元组成紧凑的**神经元激活图（NAG）**，并根据候选数据与目标示例的NAG相似度进行排序。我们在六个基准上进行了实验，在面向目标的预训练中，基于NAG的排序相比随机采样平均提升4.9%，在HellaSwag上比最先进的基线方法高出5.3%的准确率。该方法在更实用的多目标设置下同样有效，我们的最佳配置分别超过两个基线方法1.1%和4.1%。此外，我们对NAG为何有效以及如何工作进行了全面分析，例如，停用NAG选中的神经元（仅占全部神经元的0.12%）会导致性能下降23.5%，而将NAG限制在最后一层会导致平均4.1%的下降，这表明NAG捕捉到了学习目标特征的稀疏"功能骨干"。代码已发布在https://github.com/asillycat/NAG。

大语言模型；预训练数据选择

图1：基于通用质量的数据选择常与特定下游能力不匹配（左图），而先前的面向目标方法依赖与目标示例的浅层相似性（中左图）。我们的NAG方法通过选择激活LLM中与目标任务相似神经元的输入来对齐预训练数据与目标任务，捕捉目标所需的基本能力（中右图），即使在不同领域之间（例如，经济学与数学）。

图2：基于神经元激活图（NAG）的面向目标数据选择流程概览。给定少量目标示例 D_target，我们首先通过神经元级别的NAG特征表征每个输入。对于给定输入，我们量化单个神经元的影响，每层选择前K个神经元构建紧凑的NAG。将目标示例的NAG聚合形成目标神经元激活轮廓。候选样本 c ∈ D_pool 被映射为其对应的NAG，并根据其与目标轮廓的相似度进行排序，即 Sim(c, D_target)。最后选择排名前 r_f 的样本用于LLM预训练。

## 1 引言

大语言模型（LLM）在日常任务中越来越普及，人们通常带着特定目标使用这些模型。选择高质量的预训练数据是在目标领域内提升模型性能最有效的方法之一，能带来巨大收益（Penedo et al., 2024; Mizrahi et al., 2025; Gunasekar et al., 2023; Sorscher et al., 2023）。尽管其重要性不言而喻，但何为"高质量"数据仍缺乏明确定义（图1）。我们认为，在实际场景中，高质量数据应与目标场景对齐，使LLM能够高效获得所需能力——教育、医学或特定研究领域——同时排除无关因素（Mizrahi et al., 2025）。然而，现有数据选择流程使这种对齐变得模糊。许多方法依赖启发式规则（Wenzek et al., 2019; Rae et al., 2022; Lee et al., 2022; Abbas et al., 2023）或关于"质量"的隐含假设（Sachdeva et al., 2024; Wettig et al., 2024; Penedo et al., 2024），导致数据选择方式与模型最终需要发展的特定能力之间存在明显差距。先前将LLM预训练数据与明确目标对齐的工作表明，面向目标的预训练能带来显著的计算加速比，并在不同规模下保持一致的性能提升（Mizrahi et al., 2025）。然而，这些方法大多通过将模型内部信号（如嵌入启发式或与性能相关的损失）蒸馏到辅助分类器中来实现任务对齐，以提升可扩展性（Mizrahi et al., 2025; Thrush et al., 2025; SHUM et al., 2025; Miyoshi et al., 2025）。这种黑盒蒸馏引入了可解释性瓶颈：学习到的信号是 opaque 的，难以诊断或改进，从而限制了这些信号进一步带来性能提升的效果。

为解决这一问题，我们引入了**神经元激活图排序（基于NAG的排序）**，这是一种以神经元为中心的面向目标预训练数据选择框架。如图2所示，我们的核心思想是通过识别LLM中哪些神经元对处理该输入至关重要来表征每个文本输入，而非通过黑盒表示。具体地，我们首先在现成LLM推理过程中量化神经元影响（第2.1节），然后将跨层最有影响力的神经元组织成紧凑的**神经元激活图（NAG）**（第2.2节）。对于数据选择，我们根据候选样本的NAG与目标示例NAG的相似度进行排序，优先选择能触发与目标数据相似神经元模式的训练输入。值得注意的是，基于NAG的排序无需额外训练，仅依赖任何现成LLM的可解释信号。

实验评估表明，基于NAG的排序在不同设置和基准上均能持续提升面向目标的任务性能。与随机采样相比，基于NAG的排序在面向目标预训练中平均提升4.9%，超过了专注于通用数据质量的强分类器（Penedo et al., 2024）以及最先进的面向目标数据选择方法（如BETR，Mizrahi et al., 2025）。此外，我们的算法在多目标任务中更具通用性（基线方法常在此场景下降），最佳配置分别超过两个基线方法1.1%和4.1%。我们还通过将NAG信号加入另一种基于质量的数据选择方法中，进一步证明了NAG的广泛适用性，从而提升了得分。最后，NAG的性能提升在不同骨干模型上保持一致（4.7%至5.0%），表明NAG具有鲁棒性和模型无关性。

获得更好的性能是一方面，解释NAG如何以及为何有效才使我们的算法真正可解释。我们设计了专门的实验从两个角度进行探究：(i) **NAG为何有效**：我们发现NAG通过识别LLM的稀疏"功能骨干"来工作——仅停用0.12%的模型神经元就会导致性能急剧下降23.5%（第4.1.1节）。这些高影响神经元通过聚类能很好地表示不同的目标信息（第4.1.2节）——NAG捕捉到了所需目标的真正驱动力。最后，我们展示了基于NAG的排序与目标学习效用之间存在高度相关性（第4.1.3节）。(ii) **NAG如何运作**：我们找出了NAG的工作路径，具体来说，它通过聚合所有LLM层的信号来映射一条"计算轨迹"。我们的分析表明，将NAG限制在最后一层会导致平均4.1%的性能下降（第4.2.2节）。此外，通过调整NAG信号来源的模型组件，我们发现从内部投影中提取信号（第4.2.1节）且使用非常稀疏的神经元比例（第4.2.3节）对于捕捉有效的任务特定信号至关重要。

## 2 方法

先前的研究（Panigrahi et al., 2023; Zhao et al., 2024, 2025）表明，模型行为由高度稀疏的参数子集控制，不同任务依赖大部分不相交的区域。因此，归因于相同能力的输入预计会引发相似的内部参数使用模式。基于这一见解，我们通过对模型计算施加强烈影响的神经元子集来表征每个输入，并通过这种神经元级别结构的相似度来衡量输入相关性。我们因此提出一种以神经元为中心的面向目标数据选择框架，该框架(1)量化每个输入的神经元影响（第2.1节），(2)将跨层最有影响力的神经元组织成紧凑的**神经元激活图（NAG）**（第2.2节），以及(3)根据候选样本的NAG与少量目标示例的相似度进行排序（第2.3节）。

### 2.1 神经元影响

遵循PLND（Zhao et al., 2024），我们将**神经元**定义为基于Transformer的语言模型中投影权重矩阵的一列，并关注注意力模块（Q、K、V）和前馈网络模块（UP、DOWN）中的投影层（Vaswani et al., 2017）。具体来说，对于投影矩阵 W ∈ ℝ^{d_in × d_out}，W 的每一列被视为一个独立的神经元，该层共有 d_out 个神经元。例如，FFN的UP投影 W_up ∈ ℝ^{d_model × d_internal} 包含 d_internal 个神经元。

为了量化投影层 ℓ 中神经元 N_k 的贡献，我们衡量停用该神经元所引起的变化。由于评估其对最终输出的影响代价高昂，我们采用局部近似，并基于对应投影层的输出来定义神经元影响（我们将在附录C中验证此局部代理与损失变化的一致性）。给定输入 h_in ∈ ℝ^{d_in}，层输出为 h_out = h_in^⊤ W。停用 N_k 相当于将 W 的第 k 列置零，记作 W \ N_k。我们将神经元影响定义为：

Imp(N_k | h_in) = ‖ h_in^⊤ W - h_in^⊤ (W \ N_k) ‖_2 = | h_in^⊤ W_{:,k} |,

其中 W_{:,k} 表示 W 的第 k 列。该公式表明，神经元影响简化为其对层输出列贡献的幅度。在下文中，我们将具有相对较大影响值的神经元称为给定输入的**激活**神经元。

### 2.2 神经元激活图（NAG）

基于第2.1节定义的神经元影响，我们构建一个结构化的、按层组织的神经元影响模式表示，称为**神经元激活图（NAG）**。我们将具有高影响得分的神经元视为给定输入的"激活"神经元，并将其作为NAG的基本单元。对于每一层，我们按影响得分对神经元进行排序，并选择固定数量 K 的高影响神经元。

考虑一个包含 L 层的模型，其中层 ℓ 包含 d_ℓ 个神经元。给定输入 c，令 I_{ℓ,k}(c) 表示层 ℓ 中神经元 k 的影响。对于每层 ℓ，我们选择按影响排序的前 K 个神经元的索引：

N_ℓ^(K)(c) = TopK({ I_{ℓ,k}(c) }_{k=1}^{d_ℓ}) ⊆ {1, ..., d_ℓ},

其中 TopK(·) 返回 K 个最大元素的索引。输入 c 的**神经元激活图（NAG）** 定义为逐层神经元索引集合的集合：

NAG(c) = (N_1^(K)(c), N_2^(K)(c), ..., N_L^(K)(c)),

等价于层-神经元索引对的集合：

NAG(c) = { (ℓ, k) | ℓ ∈ {1, ..., L}, k ∈ N_ℓ^(K)(c) }.

表1：在单目标和多目标设置下基于NAG的数据选择结果（第3.3节）。NAG使用不同骨干模型实例化（例如，NAG_Qwen3-1.7B）。对于每个基准，**粗体**表示最佳，下划线表示第二；单目标/多目标设置中的最佳额外用阴影高亮。改进相对于随机采样，以红色表示增益，蓝色表示下降。

| 方法 | ARC-C | HellaSwag | TriviaQA | MMLU | XStoryCloze | Winograd | 平均 |
|------|-------|-----------|----------|------|-------------|----------|------|
| Random | 28.5% | 51.6% | 15.6% | 30.2% | 67.1% | 76.5% | 44.9% |
| FineWeb-Edu | 34.3% +5.8% | 55.3% +3.7% | 20.1% +4.5% | 32.8% +2.6% | 65.9% -1.2% | 76.2% -0.3% | 47.4% +2.5% |
| **单目标** | | | | | | | |
| BETR | 32.3% +3.8% | 57.5% +5.9% | 20.2% +4.6% | 31.1% +0.9% | 71.0% +3.9% | 80.7% +4.2% | 48.8% +3.9% |
| NAG_Qwen3-1.7B | 34.0% +5.5% | 60.6% +9.0% | 22.3% +6.7% | 32.2% +2.0% | 70.0% +2.9% | 80.1% +3.6% | 49.8% +4.9% |
| NAG_Llama-3.2-3B | 35.0% +6.5% | 58.6% +7.0% | 21.3% +5.7% | 31.5% +1.3% | 70.8% +3.7% | 80.6% +4.1% | 49.6% +4.7% |
| NAG_SmolLM3-3B | 35.0% +6.5% | 59.8% +8.2% | 22.6% +7.0% | 31.2% +1.0% | 70.5% +3.4% | 80.6% +4.1% | 49.9% +5.0% |
| **多目标** | | | | | | | |
| BETR | 30.3% +1.8% | 49.3% -2.3% | 11.6% -4.0% | 29.9% -0.3% | 69.5% +2.4% | 76.1% -0.4% | 44.4% -0.5% |
| NAG_Qwen3-1.7B | 33.4% +4.9% | 57.8% | | | | | |

基于Neuron-Activated Graph的目标导向预训练数据选择

相似文章

面向目标任务的预训练数据选择：基于神经元激活图的方法

时间增强图注意力网络用于可供性分类

图自监督学习对现实世界噪声的鲁棒性：基于文本驱动生物医学图的案例研究

对抗图神经网络基准：迈向实用且公平的评价

将结构化生物医学知识注入语言模型：持续预训练与GraphRAG对比

提交意见反馈