小编辑,大模型:维基百科倡导如何影响大语言模型价值观

arXiv cs.CL 论文

摘要

本文证明,一个协调的小规模维基百科编辑活动能够显著影响语言模型处理特定话题的方式,以动物福利为案例研究。

arXiv:2606.24890v1 公告类型:新 摘要:一小群志愿者能否仅通过编辑维基百科来影响AI系统讨论动物福利的方式?我们证明,他们可以。维基百科几乎出现在所有主要语言模型的训练数据集中,且权重高于网络爬取文本。动物保护维基编辑者(PAW)是一个倡导组织,他们在相关文章中添加强调来源的动物福利内容,共在115个页面上进行了125次编辑。通过基于梯度的数据归因方法(Bergson; MAGIC),我们追溯了这些编辑如何影响语言模型行为。在Llama 3.1 8B上使用TrackStar检索归因发现,PAW编辑的部分占动物福利查询最高归因文档的68%(p < 0.0001),而在关于同一公司的不相关查询中仅占52%(p = 0.53):模型将PAW内容专门关联到动物福利主题,而非一般实体。在Llama-3.2-1B上使用MAGIC反事实影响估计(跨五个随机训练顺序种子运行)得到了更清晰的相同结果:在每个种子中,对动物福利查询影响最大的前10个文档全部来自PAW编辑(10/10,5/5个种子),而对一般查询,同样的前10个文档处于随机水平(4到6/10)。在每个种子中,PAW对动物福利查询的平均影响显著大于对照影响(p < 0.0001),其效应量是对一般查询的6到30倍。留子集验证在所有10次运行中给出Spearman rho = 1.00。当我们分别在PAW内容和对照内容上微调不同模型时,每个模型在其训练文本类型上表现更好:PAW训练模型将动物福利文本的困惑度从12.4降至8.4,而对照训练模型将对照文本的困惑度从16.1降至11.4。因此,一个协调的小规模维基百科编辑活动能够显著影响语言模型处理这些编辑所涉及话题的方式。
查看原文
查看缓存全文

缓存时间: 2026/06/25 05:08

# Wikipedia 如何通过编辑倡导塑造大语言模型价值观
来源:https://arxiv.org/html/2606.24890
## 小编辑,大模型:Wikipedia 如何通过编辑倡导塑造大语言模型价值观

Jasmine Brazilek Compassion Aligned Machine Learning \(CaML\) &Maria Navas¹¹¹footnotemark:¹ 独立研究员 &Alexa Gnauck Pro\-Animal Wikipedians \(PAW\)

###### 摘要

一小群志愿者仅通过编辑 Wikipedia,就能塑造 AI 系统讨论动物福利的方式吗?我们证明这是可行的。Wikipedia 几乎出现在所有主要语言模型的训练数据集中,并且其权重高于网络爬取的文本。Pro-Animal Wikipedians (PAW),一个在相关文章中添加有来源动物福利内容的倡导者团体,已在 115 个页面上进行了 125 次编辑。使用基于梯度的数据归因方法(Bergson; Lucia and Belrose10 (https://arxiv.org/html/2606.24890#bib.bib6); MAGIC; Ilyas and Engstrom6 (https://arxiv.org/html/2606.24890#bib.bib5)),我们追溯了这些编辑如何影响语言模型行为。在 Llama 3.1 8B 上进行的 TrackStar 检索归因发现,对于动物福利查询,PAW 编辑的章节占最高归因文档的 68%(p<0.0001p<0.0001),但对于相同公司的无关查询,仅占 52%(p=0.53p=0.53):模型将 PAW 内容与动物福利主题特定关联,而非与实体本身笼统关联。在 Llama-3.2-1B 上运行的 MAGIC 反事实影响估计,跨越五个随机训练顺序种子,给出了更清晰的相同图景:在每个种子中,对动物福利查询影响最大的前 10 个文档全部是 PAW 编辑(10/10,5/5 个种子),而在一般查询上,相同的前 10 个文档处于随机水平(4–6/10)。平均 PAW 影响力在动物福利查询上超过平均控制影响力,每个种子 p<0.0001p<0.0001,其效应比一般查询大 6–30×\times;留子集验证在所有 10 次运行中给出 Spearman 相关系数 ρ=1.00\rho=1.00。当我们分别在 PAW 内容和控制内容上微调模型时,每个模型在其训练文本类型上表现更好,无交叉收益:PAW 训练的模型将动物福利文本的困惑度从 12.4 降至 8.4,而控制训练的模型将控制文本的困惑度从 16.1 降至 11.4。因此,一场小规模、协调一致的 Wikipedia 编辑活动可测量地塑造了语言模型处理这些编辑所涉及主题的方式,使 Wikipedia 编辑成为倡导组织影响 AI 系统的一种实用、低成本的方式。

## 1 引言

语言模型正成为人们获取信息的主要方式。对于倡导组织而言,这提出了一个实际问题:你能影响这些模型对你的事业的说法吗?我们证明 Wikipedia 编辑是方法之一。Wikipedia 出现在几乎所有用于构建语言模型的主要训练数据集中(The Pile, RedPajama, Dolma 等),并且由于其质量和广度,其权重高于网络爬取的来源 [5 (https://arxiv.org/html/2606.24890#bib.bib3),12 (https://arxiv.org/html/2606.24890#bib.bib7),15 (https://arxiv.org/html/2606.24890#bib.bib8)]。这意味着 Wikipedia 对某个主题的论述直接反馈到语言模型对该主题的论述中。

这创造了一个机会。Wikipedia 一直是小群专注编辑者塑造主题呈现方式的地方 [16 (https://arxiv.org/html/2606.24890#bib.bib9)]。由公民社会团体、政治运动和公关公司组织的编辑活动很常见,范围从国家支持接管整个语言版本到企业声誉管理 [4 (https://arxiv.org/html/2606.24890#bib.bib2),8 (https://arxiv.org/html/2606.24890#bib.bib4)]。但很大程度上被忽视的是,这些编辑努力现在有了第二个效果:它们塑造了语言模型的训练数据,而语言模型又塑造了数百万人获取信息的方式。对于预算有限的倡导组织,这提出了一个具体问题:编辑 Wikipedia 真的能改变 AI 系统的说法吗?

我们在动物福利领域研究这一现象。Pro-Animal Wikipedians (PAW) 持续编辑了 Wikipedia 中与动物利用和认知相关的文章,涉及快餐、动物感知和政治等主题。利用修订历史,我们分离出该团体带来的文本变化,并使用基于梯度的数据归因方法量化它们对语言模型行为的下游影响。

我们使用 Bergson [10 (https://arxiv.org/html/2606.24890#bib.bib6)],一个实现了 TrackStar [3 (https://arxiv.org/html/2606.24890#bib.bib1)] 的开源库,来追溯单个 Wikipedia 编辑如何影响模型预测。TrackStar 可在十亿参数模型和超过 1600 亿 token 的语料库规模上工作,使我们能够超越表面关键词重叠,测量特定编辑是否真正改变了模型对动物福利的说法。这很重要,因为对模型输出影响最大的训练示例往往不是那些最明显包含相关信息的例子 [3 (https://arxiv.org/html/2606.24890#bib.bib1)]。

### 1.1 这对倡导工作为何重要

动物倡导组织资源有限,必须谨慎选择干预措施。游说、公共宣传和企业外联是熟悉的手段,但语言模型的兴起创造了一个新的影响渠道,而大多数组织尚未探索。如果 AI 系统塑造了公众对动物福利的理解,那么这些系统学习的数据就成为了变革的杠杆,而 Wikipedia 作为模型训练中最受信任且权重最高的文本来源,是最易获取的杠杆。PAW 是一个松散的编辑者联盟,他们在相关的 Wikipedia 文章中添加关于动物利用的有来源信息。他们的编辑基于事实并遵循 Wikipedia 的编辑政策,但他们有意在关于快餐连锁店、动物感知及相关主题的文章中突出动物福利。

这很重要,因为基于 Wikipedia 训练的 LLM 不仅仅是记忆文章;它们从所见文本的分布中学习关联、框架和主题的相对显著性。如果一篇关于快餐连锁店的 Wikipedia 文章包含关于动物福利争议的章节,那么在这篇文章上训练的模型会将该品牌与这些争议联系起来。如果该章节缺失,则关联较弱或缺失。问题是这些编辑选择是否具有可测量的下游影响,如果有,是哪种内容驱动了这种影响。

利害关系是真实的。未来数十亿人将使用 AI 驱动的系统,这些系统将塑造他们对食物、农业和动物的看法。如果一小群志愿者进行的 125 次 Wikipedia 编辑能显著改变语言模型处理动物福利的方式,那么这就是倡导社区最廉价、最具可扩展性的干预措施之一:无需技术专长,无需 API 访问,预算仅限于投入编辑者的时间。本文首次测量了这一信号并确认其存在。

### 1.2 主要贡献

我们做出三项贡献。首先,我们首次证明一场真实的 Wikipedia 编辑活动(一小群志愿者的 125 次编辑)可测量且选择性地影响了语言模型在这些编辑所涉及主题上的行为。其次,我们通过三种独立方法(检索归因、反事实训练影响和微调消融)确认了这一点,每种方法都表明这种效应特定于动物福利内容,不会溢出到无关主题。第三,我们将 Wikipedia 编辑定位为倡导组织的一种实用、低成本干预:无需技术基础设施,无需模型访问,其效果会在模型重新基于 Wikipedia 训练时自动延续。

## 2 相关工作

本工作处于三个领域的交叉点:语言模型的数据归因、作为有组织编辑场域的 Wikipedia,以及关于训练数据如何影响模型行为的日益增加的研究。

数据归因方法试图回答:哪些训练示例导致模型产生给定输出?影响函数 [9 (https://arxiv.org/html/2606.24890#bib.bib10)] 是第一个实用的方法,但在大型语言模型上运行成本过高。TrackStar [3 (https://arxiv.org/html/2606.24890#bib.bib1)] 通过计算训练文档与查询之间的梯度相似性解决了这一问题,使大规模语料库上数十亿参数模型的归因变得可行。MAGIC [6 (https://arxiv.org/html/2606.24890#bib.bib5)] 更进一步,通过整个训练过程反向传播来估计反事实影响:如果某个文档从训练中移除,会发生什么变化?两者都在 Bergson 库 [10 (https://arxiv.org/html/2606.24890#bib.bib6)] 中实现。其他方法包括 TRAK [11 (https://arxiv.org/html/2606.24890#bib.bib11)] 和 Ilyas 等人 [7 (https://arxiv.org/html/2606.24890#bib.bib12)] 的数据子集方法,但这些方法需要训练数百或数千个模型,使得大规模应用不切实际。我们选择 TrackStar 和 MAGIC,因为它们在单一工具内提供互补的证据(一个测量相似性,另一个测量因果性)。

Wikipedia 是语言模型训练数据的标准组成部分。它出现在 The Pile [5 (https://arxiv.org/html/2606.24890#bib.bib3)]、RedPajama [15 (https://arxiv.org/html/2606.24890#bib.bib8)]、Dolma [12 (https://arxiv.org/html/2606.24890#bib.bib7)] 以及 GPT-3 [1 (https://arxiv.org/html/2606.24890#bib.bib13)] 和 LLaMA [13 (https://arxiv.org/html/2606.24890#bib.bib14)] 的训练数据中,并且在大多数中被赋予额外权重。与此同时,关于 Wikipedia 本身的研究长期以来记录了其内容如何被有组织的团体塑造。Yasseri 等人 [16 (https://arxiv.org/html/2606.24890#bib.bib9)] 绘制了争议话题上的编辑战。Kharazian 等人 [8 (https://arxiv.org/html/2606.24890#bib.bib4)] 展示了一个小团体如何控制了塞尔维亚-克罗地亚语版本的治理。企业公关编辑非常普遍 [4 (https://arxiv.org/html/2606.24890#bib.bib2)]。这两个事实(Wikipedia 是关键的训练来源,且其内容被有组织的编辑所塑造)在本工作之前尚未被经验性地联系起来。

一条相关的研究线探讨了训练数据组成如何影响模型行为。数据投毒研究 [14 (https://arxiv.org/html/2606.24890#bib.bib15),2 (https://arxiv.org/html/2606.24890#bib.bib16)] 表明,注入少量操控数据可以引导模型输出。我们的场景不同:PAW 的编辑不是对抗性注入。它们是真实、符合政策的 Wikipedia 贡献,突出了动物福利。我们证明了这种合法的、由价值观驱动的编辑,不仅仅是对抗性攻击,塑造了模型学习的内容,这对于倡导组织如何考虑影响 AI 具有重要意义。

## 3 方法

### 3.1 数据集构建

PAW 追踪的编辑活动涵盖 115 篇 Wikipedia 文章的 125 次编辑。对于归因实验,我们需要文章内部配对:每个动物福利 (AW) 部分与同一篇文章的非 AW 部分配对,以控制文章受欢迎程度、写作质量和主题领域。在这 115 页中,有 31 页同时包含一个清晰界定的 AW 部分和一个合适且长度相当的非 AW 控制部分(例如,公司历史、财务表现、门店位置)。一些文章完全缺少非 AW 部分(PAW 编辑构成了文章的大部分内容),另一些文章则没有清晰可分离的 AW 段落(编辑插入在混合主题部分内)。从这 31 个合格页面中,我们得到了 36 对(一些页面产生了多个不同的 AW 部分,例如 Trader Joe's 有关于无笼鸡蛋、可持续性和动物福利的单独条目)。这产生了一个包含 72 个部分的平衡数据集。

对于 MAGIC 和微调消融,不需要文章内部配对,因为这些方法测量的是不同的量:一个文档在训练中的存在如何因果性地影响查询损失。控制集只需代表不含动物福利内容的典型 Wikipedia 文本。因此,我们从所有 115 页的 125 个追踪编辑中提取 AW 文本;去除 7 个内容字段为空的条目后,我们得到了来自 108 个独特页面的 118 个 AW 部分。我们将这些与来自 WikiText-103(种子 42)的 118 个随机块配对作为控制项,产生一个包含 236 个文档的数据集。使用无关的 Wikipedia 文本而不是同一篇文章的 PAW 前版本是刻意的:来自同一页面的 PAW 前内容会与 AW 部分共享实体和部分主题重叠,从而减弱不同条件之间的分离。我们的设计防止了文本质量或长度差异带来的混淆:如果控制文本仅仅是质量更差,那么 AW 文档会在所有查询(而不仅仅是动物福利查询)上主导归因。

使用两个查询集来探测归因:80 个动物福利查询(例如,“Aldi 的动物福利政策是什么?”)和 90 个关于相同实体的一般查询(例如,“Aldi 有多少家门店?”)。一般查询作为负对照:如果归因信号确实是主题特定的,那么对于提及相同公司但询问无关事项的查询,AW 内容不应被优先归因。

### 3.2 TrackStar 检索归因

TrackStar [3 (https://arxiv.org/html/2606.24890#bib.bib1)] 通过计算训练文档与查询之间的梯度相似性来估计基于检索的归因。对于每个查询,它根据文档的训练梯度和查询的梯度对齐强度对所有训练文档进行排序,产生一个反映模型所学习语义相关性的分数。我们通过 Bergson 在 Llama 3.1 8B 上运行 TrackStar,使用配对的 72 文档数据集对两个查询集进行计算。

### 3.3 MAGIC 训练影响

MAGIC 超越了检索相似性,通过整个训练历史反向传播。它在文档集上微调模型,记录每一步的优化器检查点,然后反向追溯以计算每个文档的梯度对模型在给定查询上损失贡献了多少。得到的分数估计了反事实:如果该文档从训练中移除,查询损失会如何变化?Bergson 的 MAGIC 实现按原始文档顺序报告每个文档的分数,约定更负的分数表示其移除会使查询损失增加最多(即,最有影响力的文档)。

我们使用 LoRA(秩 32,目标 q_proj 和 v_proj,alpha 64)在包含 236 个文档的数据集(118 个 PAW 编辑 + 118 个 WikiText-103 控制)上微调 Llama-3.2-1B,训练一个 epoch,使用多项式学习率调度(峰值 lr=4×10−4=4\times 10^{-4}, 25% 热身),AdamW 优化器(β1=0.95\beta_1=0.95, β2=0.975\beta_2=0.975),权重衰减 0.01,批次大小 4,fp32 精度。

多种子协议。训练顺序打乱由种子控制;每个文档的 MAGIC 分数取决于微调过程中文档出现的顺序,而一项独立实验的前期工作表明,单种子估计可能携带种子依赖的噪声,而内部验证无法标记。因此,我们对每个查询集在五个随机种子(1, 7, 42, 99, 256)上运行完整流程(总共 10 次运行)。每次运行包括其自己的留子集验证(5 个子集);所有 10 次运行返回 Spearman 相关系数 ρ=1.00\rho=1.00(p<10−23p<10^{-23}),分数方差一致。

相似文章

比人类更环保?大语言模型中的环境态度

arXiv cs.CL

本文开发了一个用于评估31个大语言模型环境态度的基准,发现它们往往表现出进步的环境观和情境敏感性,凸显了在可持续发展应用中可操控性和规范可靠性的问题。