中心与边缘:基于网络图中心性的预训练数据选择
摘要
本文介绍了WebGraphMix,一个轻量级框架,利用来自Common Crawl的网络图中心性分数来选择预训练数据,实验表明混合中心文档与边缘文档能够提升语言模型性能。
查看缓存全文
缓存时间: 2026/06/11 13:37
# 基于网页图中心性的预训练数据选择
来源:https://arxiv.org/html/2606.11499
Vedant Badoni Danqi Chen Xinyi Wang \{vedantbadoni, danqic\}@princeton\.eduwangxinyilinda@gmail\.com 普林斯顿语言与智能研究所
###### 摘要
现代语言模型的性能在很大程度上取决于预训练数据的构成。然而,现有的数据选择方法依赖辅助分类器进行文档评分或混合优化,增加了计算开销和对标注数据的依赖。我们提出WebGraphMix,一种轻量级数据选择框架,该框架在Common Crawl主机级网页图上计算结构中心性得分,并利用这些得分来改变预训练混合数据中中心文档与外围文档的比例。我们假设,中心主机会让模型接触到可复用的抽象概念,而外围主机则编码了专业化的长尾知识。WebGraphMix能够在网络规模上高效计算中心性得分,无需模型训练、标注数据或下游监督。我们将WebGraphMix集成到DataComp-LM流程中,在4亿和10亿参数规模上训练模型,分别使用80亿和280亿个令牌,并在从事实知识到符号推理的23个任务上进行评估。我们的实验表明,中心网页区域和外围网页区域编码了互补的能力。将两者以1:1的比例混合,平均达到41.4%,而均匀采样为39.8%。将结构得分与文档级质量分类器得分相结合,性能进一步提升至43.8%。这些发现表明,网页图拓扑是预训练数据策展的一个有意义的维度,捕获了与现有基于内容的方法在很大程度上正交的信息。
## 1 引言
现代语言模型(LM)的性能在很大程度上取决于其预训练数据的构成。虽然神经缩放定律(Kaplane 等人,2020 (https://arxiv.org/html/2606.11499#bib.bib4);Hoffmann 等人,2022 (https://arxiv.org/html/2606.11499#bib.bib34))描述了数据规模如何影响性能,但人们对大规模网页语料库的结构如何影响数据选择的了解却少得多。在实践中,现代预训练流程依赖于经过过滤、去重和文档级采样处理的大规模网页转储(Albalak 等人,2024 (https://arxiv.org/html/2606.11499#bib.bib5))。这些流程隐含地将文档视为独立单元,应用启发式质量过滤器或领域分类器,而不考虑文档之间的关系(Soldaini 等人,2024 (https://arxiv.org/html/2606.11499#bib.bib6))。因此,现有方法在很大程度上忽略了信息在网络上如何组织的问题。
然而,网络本质上是一个图。网页和主机通过超链接连接,形成一个大规模网络,该网络编码了主题结构、引用模式和信息流。我们假设,文档在此图中的结构位置可能与其在预训练期间提供的知识类型和可迁移性相关。结构上中心的文档——那些位于许多最短路径上或连接不同区域的文档——充当枢纽或桥梁,连接原本弱连接的社区,更有可能与异构上下文共同出现,并使模型接触到可复用的抽象概念。相比之下,外围文档可能编码了共享程度较低的专业化或长尾内容。从语言建模的角度来看,这表明图结构可能会影响令牌级学习信号的多样性和重叠程度,从而塑造预训练期间学到的能力。
参见图注图1:Common Crawl主机级网页图的子图。节点大小与其介数中心性得分成正比。在这项工作中,我们引入了WebGraphMix,一种基于图的数据选择框架,利用网络规模的结构信号来构建预训练混合数据。WebGraphMix直接操作于超链接图,并且是完全无监督的。我们计算一个大型Common Crawl主机级图的中心性度量,并使用这些分数将数据划分为结构上不同的子集。然后,我们构建强调 (i) 结构中心数据、(ii) 结构外围数据以及 (iii) 两者组合的训练混合数据,从而能够控制性地调查图位置如何影响下游模型行为。我们主要测试了两种计算图中心性的方法:介数中心性(Freeman,1977 (https://arxiv.org/html/2606.11499#bib.bib40))和Katz中心性(Katz,1953 (https://arxiv.org/html/2606.11499#bib.bib41))。我们还尝试了基于PageRank(Page 等人,1999 (https://arxiv.org/html/2606.11499#bib.bib25))的评分,但未能显示出改进,这与DCLM(Li 等人,2024 (https://arxiv.org/html/2606.11499#bib.bib2))的观察结果一致。
WebGraphMix不同于先前基于领域和基于质量的方法。基于领域的方法构建语义分类法(例如,主题和格式类别)(Wettig 等人,2025 (https://arxiv.org/html/2606.11499#bib.bib8))或通过回归或代理训练优化粗粒度领域混合(例如,arXiv、GitHub、Common Crawl)(Xie 等人,2023 (https://arxiv.org/html/2606.11499#bib.bib18);Liu 等人,2025 (https://arxiv.org/html/2606.11499#bib.bib33)),而基于质量的方法根据抽象质量(例如,教育价值、原始网页与策划的高质量数据之间的差异)对文档进行评分(Penedo 等人,2024 (https://arxiv.org/html/2606.11499#bib.bib1);Sachdeva 等人,2026 (https://arxiv.org/html/2606.11499#bib.bib15);Wettig 等人,2024 (https://arxiv.org/html/2606.11499#bib.bib7);Li 等人,2024 (https://arxiv.org/html/2606.11499#bib.bib2);Gunasekar 等人,2023 (https://arxiv.org/html/2606.11499#bib.bib39))。相比之下,WebGraphMix不需要分类法、分类器或回归模型——仅需要网页图固有的结构信号,使其轻量级且可直接跨暴露超链接结构的语料库迁移。
我们将WebGraphMix集成到标准化的DataComp-LM (DCLM)流程(Li 等人,2024 (https://arxiv.org/html/2606.11499#bib.bib2))中,并在4亿和10亿参数规模上训练模型,分别使用80亿和280亿个令牌。完整Common Crawl主机图(1390万个节点,4.396亿条边)的中心性得分计算总共耗时不到9个GPU小时,并且可以在所有下游实验中重复使用。所有训练运行使用相同的分词、打乱和优化程序,以隔离数据选择的影响,我们评估了来自DCLM CORE v2基准(Li 等人,2024 (https://arxiv.org/html/2606.11499#bib.bib2))的广泛23个任务。
我们的结果表明,图结构为预训练数据策展提供了有意义的互补信号。在10亿规模下,选择来自结构中心主机的文档在符号与算法推理上比均匀采样提高了+1.4%,而选择来自外围主机的文档则在科学与事实知识以及常识与推理方面有所提升。这些相反的影响表明网页图的不同区域编码了不同能力相关的信号,并促使采用混合采样:使用介数中心性,结合50%中心文档和50%外围文档,在所有23个任务上平均达到41.4%,而均匀采样为39.8%。通过乘法与除法评分将中心性信号与DCLM-fasttext质量分类器相结合,性能进一步提升至43.8%,表明网页图拓扑捕获了与基于内容的质量信号在很大程度上正交的信息。
总之,我们的结果表明,将网络视为一个结构化的图——而非无序的语料库——为研究数据分布与模型能力之间的关系开辟了一个新方向。
## 2 相关工作
#### 启发式过滤与去重。
现有的数据策展方法主要在文档级别操作,并将文档视为独立单元。策展的第一阶段通常应用启发式过滤和去重。基于规则的过滤移除样板文件、垃圾邮件和格式错误的文本(Raffel 等人,2020 (https://arxiv.org/html/2606.11499#bib.bib10);Rae 等人,2021 (https://arxiv.org/html/2606.11499#bib.bib11);Penedo 等人,2023 (https://arxiv.org/html/2606.11499#bib.bib12)),而像MinHash(Broder,1997 (https://arxiv.org/html/2606.11499#bib.bib13);Lee 等人,2022 (https://arxiv.org/html/2606.11499#bib.bib14))和基于布隆过滤器的方法(Soldaini 等人,2024 (https://arxiv.org/html/2606.11499#bib.bib6))等去重技术可以消除近似重复的文档,以减少记忆化。像DataComp-LM (DCLM)(Li 等人,2024 (https://arxiv.org/html/2606.11499#bib.bib2))这样的框架标准化了这些预处理步骤,并实现了计算可控的比较。虽然这些方法在提高数据清洁度和多样性方面有效,但它们不建模文档之间的关系。
#### 文档质量评分。
策展的第二阶段通常为文档分配标量质量分数,并基于排名选择数据。FineWeb-Edu(Penedo 等人,2024 (https://arxiv.org/html/2606.11499#bib.bib1))、DCLM-fasttext(Li 等人,2024 (https://arxiv.org/html/2606.11499#bib.bib2))、QuRating(Wettig 等人,2024 (https://arxiv.org/html/2606.11499#bib.bib7))和Ask-LLM(Sachdeva 等人,2026 (https://arxiv.org/html/2606.11499#bib.bib15))估计诸如教育价值或策划的高质量语料库与低质量语料库之间的差异等属性。基准目标排名 (BETR)(Mizrahi 等人,2025 (https://arxiv.org/html/2606.11499#bib.bib16))通过选择与基准示例相似的文档,显式地将预训练数据与下游任务对齐,在缩放定律分析下取得显著收益。其他方法使用困惑度(Wenzek 等人,2020 (https://arxiv.org/html/2606.11499#bib.bib17))、n-gram重叠(Xie 等人,2023 (https://arxiv.org/html/2606.11499#bib.bib18))或基于注意力的信号(Hua 等人,2025 (https://arxiv.org/html/2606.11499#bib.bib19))来识别有用数据。尽管方法多样,但它们的共同公式是:数据选择被视为独立评分文档上的一个排名问题。
#### 领域混合优化。
策展的第三阶段通常通过将网页数据划分为领域并优化混合权重来引入更高级别的结构。大多数工作,如DoReMi(Xie 等人,2023 (https://arxiv.org/html/2606.11499#bib.bib18))、RegMix(Liu 等人,2025 (https://arxiv.org/html/2606.11499#bib.bib33))、TiKMiX(Wang 等人,2025 (https://arxiv.org/html/2606.11499#bib.bib22))、DoGE(Fan 等人,2024 (https://arxiv.org/html/2606.11499#bib.bib36))和Aioli(Chen 等人,2025 (https://arxiv.org/html/2606.11499#bib.bib20)),使用粗粒度的预定义领域分类,并通过代理模型、回归或基于影响的技术优化混合的权重。为了阐明预训练数据的领域分类法,像Skill-it(Chen 等人,2023 (https://arxiv.org/html/2606.11499#bib.bib35))、WebOrganizer(Wettig 等人,2025 (https://arxiv.org/html/2606.11499#bib.bib8))、Nemotron-CLIMB(Diao 等人,2026 (https://arxiv.org/html/2606.11499#bib.bib21))和Group-MATES(Yu 等人,2026 (https://arxiv.org/html/2606.11499#bib.bib23))这样的工作通过聚类或构建紧凑且可解释的领域分类法,在优化混合之前定义自己的数据领域。这些方法可以产生强大的实证收益,但通常需要大量的计算、模型训练或下游监督。
所有这些方法背后都有一个共同的假设:文档主要根据其内容或相似性进行评估,而不是根据它们彼此之间的关联方式。即使引入了结构(例如,领域或聚类),它也是从语义相似性或学习到的表示中推导出来的,而不是来自网络的固有连接性。
#### 有用的网页图结构。
相比之下,网络本质上是一个图:超链接将页面和主机连接成一个大规模网络,编码了引用、主题邻近度和信息流。像PageRank(Page 等人,1999 (https://arxiv.org/html/2606.11499#bib.bib25))和HITS(Kleinberg,1999 (https://arxiv.org/html/2606.11499#bib.bib26))等基于图的方法长期以来一直利用这种结构进行排名和检索。最近的工作Craw4LLM(Yu 等人,2025 (https://arxiv.org/html/2606.11499#bib.bib27))引入了质量感知的爬取以提高爬虫效率——使用网页质量作为爬虫调度器的优先级分数,而非图连接性,将爬取页面减少到基线的21%,同时性能相当。虽然Craw4LLM在爬取过程中融入了质量信号,但我们在爬取*之后*重新引入网页图结构用于数据选择。一个互补的方向是在训练时利用网页元数据:MeCo(Gao 等人,2025 (https://arxiv.org/html/2606.11499#bib.bib24))以URL信息为条件来提高数据效率并实现可控推理,即使在URL匿名化后收益仍然存在——这表明按来源对文档进行分组提供了有用的结构信号。与这些方法不同,我们的方法纯粹在数据选择阶段操作。
据我们所知,先前的工作没有将图论位置作为直接信号,用于在已爬取语料库中选择和加权文档以进行预训练。
## 3 我们的方法:WebGraphMix
我们引入WebGraphMix,一个轻量级的预训练数据选择框架,利用来自网页图的结构信号。我们的方法不是基于内容独立地对文档进行评分,而是根据每个文档在全局超链接网络中的位置分配*中心性得分*,并使用这些得分来指导采样。
### 3.1 网页图构建
我们在Common Crawl主机级图111 我们使用来自https://commoncrawl.org/web-graphs的cc-main-2023-24-sep-nov-feb-host。上操作,其中每个节点代表一个网络主机(例如,wikipedia.org),有向边对应于主机之间的超链接。形式上,我们定义一个相似文章
Spokes: 优化多样化的预训练数据选择
本文介绍了Spokes,一个基于G-Vendi分数的概率多样化框架,通过联合优化质量和多样性,在FineWeb和DCLM上实现了下游任务性能的显著提升。
面向目标任务的预训练数据选择:基于神经元激活图的方法
提出神经元激活图排序(Neuron-Activated Graph Ranking),一种无需训练的框架,利用稀疏高影响神经元集合为目标任务挑选预训练数据,平均基准性能提升 4.9%。
多重图中的异质性建模:一种自适应的节点分类方法
本文介绍了HAAM,一种用于多重图中节点分类的新方法,能够适应不同维度上的同质性和异质性交互。它使用维度特定的兼容性矩阵以及通过切比雪夫多项式近似的可训练低通和高通滤波器的乘积,来捕捉信号的平滑和突变变化。
KletterMix:迈向高质量德语预训练数据
KletterMix 是一个高质量的德语预训练语料库,通过将最先进的英语预训练数据集翻译成德语构建而成,同时保留其结构和多样性。控制实验表明,在 KletterMix 上训练的模型在德语基准测试中取得了可衡量的改进。
大语言模型预训练的数据混合:综述与展望
# 大语言模型预训练的数据混合:综述与展望 来源:[https://arxiv.org/abs/2604.16380](https://arxiv.org/abs/2604.16380) [查看 PDF](https://arxiv.org/pdf/2604.16380) > 摘要:大型语言模型(LLMs)依赖于在海量且异构的语料上进行预训练,在现实中的计算和数据预算限制下,训练数据的构成对训练效率和下游泛化能力有着决定性的影响。与样本级的数据选择不同,数据混