DataDignity:用于大型语言模型的训练数据归属

arXiv cs.AI 论文

摘要

本文介绍了 DataDignity,这是一个针对精准溯源(pinpoint provenance)的框架与基准(FakeWiki),旨在识别支持大语言模型(LLM)回答的具体训练数据来源。文章提出了 ScoringModel 和 SteerFuse 两种方法,以在标准检索基线之上提高归属准确率。

arXiv:2605.05687v1 公告类型:新文章 摘要:对语言模型输出进行审核往往不仅需要判断其正确性:审核者可能还需要识别出最有可能支持响应中所表达知识的源文档。我们将此问题研究为精准溯源:给定提示词、目标模型响应和候选语料库,对最能支持该响应的文档进行排序。我们引入了 FakeWiki,这是一个包含 3,537 篇伪造维基百科风格文章的受控基准,旨在保持真实溯源信息的同时削弱词汇捷径的影响。FakeWiki 包含问答探针、保留来源的改写文本、反向生成的变体、难以匹配的对抗性文档(在保持主题相似性的同时移除答案关键事实),以及五种查询条件:干净提示加上四种受越狱启发的转换。我们评估了七种检索基线、一种无需训练的激活引导检索融合方法 SteerFuse,以及一种监督式对比溯源排名器 ScoringModel。ScoringModel 将响应特征和文档特征映射到共享空间中,并使用 InfoNCE 配合批次内、检索挖掘及对抗性文档负样本进行训练。在九个开源指令微调大型语言模型和五种查询条件下,ScoringModel 在不使用推理时融合的情况下,将平均 Recall@10 从最强检索基线的 35.0 提升至 52.2,并在 45 个模型-条件组合中赢得 41 个。SteerFuse 尽管无需监督训练,通常表现第二好,这表明激活空间证据可以有效补充文本检索。在受越狱启发的转换查询中,ScoringModel 的平均 Recall@10 相比最佳基线提高了 15.7 个百分点。总体而言,我们的工作表明,鲁棒的训练数据归属需要能够将真正的答案支持与主题或词汇相似性区分开来的评估设置。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/08 08:32

# DataDignity:大语言模型训练数据归因

来源:https://arxiv.org/html/2605.05687
Xiaomin Li Microsoft &Andrzej Banburski-Fahey Microsoft &Jaron Lanier Microsoft

###### 摘要

审计语言模型输出往往不仅需要判断其正确性:审计者可能还需要知道哪份源文档最有可能支持响应中表达的知识。我们将此问题研究为*精准溯源(pinpoint provenance)*:给定一个提示(prompt)、目标模型响应以及候选语料库,对最能支持该响应的文档进行排序。我们引入了 **FakeWiki**,这是一个包含 3,537 篇伪造的维基百科风格文章的受控基准测试,旨在保留真实溯源信息的同时削弱词汇捷径。每个被评估的目标大型语言模型(LLM)在收集响应之前都明确地在 FakeWiki 文本语料库上进行了继续预训练,而用于归因评估的问答探针则从未出现在目标模型的训练中。FakeWiki 包含简短的问答探针、保留来源的改写、逆向生成的变体、硬对抗文档(hard anti-documents,即在保持主题相似性的同时移除对回答至关重要的事实),以及五种查询条件:干净提示加上四种受越狱(jailbreak)启发的转换——混淆、角色扮演、噪声注入和间接提示。我们评估了十一种词汇和语义检索基线、一种免训练激活引导检索融合方法 **SteerFuse**,以及一种监督对比溯源排序器 **ScoringModel**。ScoringModel 将响应和文档特征映射到共享空间,并使用 InfoNCE 结合批次内、检索挖掘以及对抗文档负样本进行训练。在九个开放权重的指令微调 LLM 和五种查询条件下,ScoringModel 将平均 Recall@10 从最强检索基线的 37.3 提升至 52.2,且无需推理时融合,并在 45 个模型-条件组合中赢得了 41 个。**SteerFuse** 在大多数组合中击败了最强的检索基线,同时无需监督训练,表明激活空间证据可以补充文本检索。在受越狱启发的转换查询上,ScoringModel 相比最佳基线平均将 Recall@10 提高了 13.2 个百分点,在较大的目标模型上增益最大。总体而言,我们的工作表明,稳健的训练数据归因需要能够将真实答案支持与主题或词汇相似性区分开的评估设置。

## 1 引言

大型语言模型越来越多地中介事实性、科学性、法律性及安全性相关信息。当模型生成响应时,用户可能不仅需要知道其是否正确,还需要知道其来源:哪份源文档提供了相关事实,可疑输出是否依赖于特定来源,或者数据干预是否移除了预期的溯源路径。这些问题出现在版权审计、虚假信息取证、安全调试和数据集策划中,且无法通过标准评估或影响风格方法(influence-style methods)完全解答(Han 和 Tsvetkov, 2021; Li et al., 2026; Zhang et al., 2024; Akyürek et al., 2022; Park et al., 2023; Barshan et al., 2020)。

我们将此问题研究为*精准溯源*。给定一个提示 $x$,一个目标模型响应 $y$,以及一个候选语料库 $D=\{D_j\}_{j=1}^N$,目标是返回一个简短的已排序文档列表,这些文档很可能支持 $y$ 中表达的知识。这是一个操作性检索问题:审计者应该检查一小部分候选来源,而不是搜索整个语料库。它比普通语义检索更难,因为答案可能很短、经过改写、基于埋在较长文档中的小事实,或者通过提示转换激发出来。一个核心挑战是,许多溯源评估通过表面重叠使归因变得过于容易。如果源文档、问题和响应共享罕见名称或独特短语,像 MinHash(Broder, 1997)这样的词汇方法,甚至像 SBERT(Reimers 和 Gurevych, 2019)、Contriever(Izacard et al., 2022)和 BGE(Xiao et al., 2024)这样的通用密集检索器,也可能显得有效,而无需证明稳健的源归因。当溯源最重要时,这些方法可能会失败:在改写、混淆、间接提问、角色扮演或不相关上下文注入的情况下。

这促使我们建立一个基准,其中真实来源由构造可知,但评估故意去除了从响应措辞回到文档身份的简单路径。我们引入了 **FakeWiki**,这是一个旨在保留真实溯源同时削弱此类捷径的基准测试。它包含 3,537 篇伪造的维基百科风格文章,配有简短的问答探针、保留来源的变体以及硬对抗文档,后者在移除对回答至关重要的事实的同时保持主题相似性。为了使其成为训练数据归因设置,每个目标 LLM 都在 FakeWiki 文档文本上进行了继续预训练,而问答探针被保留仅用于激发响应,这些响应的溯源应指向训练文档。我们在干净提示和四种转换条件下评估归因:**Obfuscate**(混淆)、**RolePlay**(角色扮演)、**NoiseInjection**(噪声注入)和 **Indirect**(间接),测试当词汇和语义线索变得不可靠时归因是否依然存在。图 1 总结了基准测试和归因管道。[^1]

[^1]: 数据和代码可在 https://anonymous.4open.science/r/Submission-DataDignity-E263 获取。

**图 1:DataDignity 概览。** 顶部:FakeWiki 构建伪造源文档、变体、对抗文档和转换查询。底部:ScoringModel 学习监督溯源分数,而 SteerFuse 融合激活空间证据与 SBERT 检索。

我们的主要归因方法 **ScoringModel** 是一个监督式孪生溯源排序器。它将响应侧和文档侧特征映射到共享嵌入空间中,并使用对比 InfoNCE 目标(Oord et al., 2018)在批次内负样本、检索挖掘的硬负样本以及策划的对抗文档上进行训练。这些对抗文档迫使模型区分仅与响应相似的文档和实际支持响应的文档。在推理时,每个候选文档都由这种学习到的兼容性函数进行评分。

我们还研究了 **SteerFuse**,这是一种免训练的激活引导检索融合方法,灵感来自语言模型中的表示级干预(Subramani et al., 2022; Turner et al., 2023; Panickssery et al., 2023; Zou et al., 2023; Li et al., 2023)。它询问哪个候选文档为观察到的响应提供了最大的内部证据提升,使用缓存的文档激活方向和高效的响应侧代理,而不是补丁前向传递。由此产生的激活空间分数与 SBERT 检索融合,以测试在转换提示下模型内部证据是否补充文本相似性。

主要结果是,干净的检索大大低估了稳健溯源的难度。两种提出的归因方法都比标准检索有所改进:免训练的 SteerFuse 方法在 45 个模型-查询条件组合中击败了 32 个最强的检索基线,而 ScoringModel 赢得了 41 个组合。在所有模型和查询条件下平均,SteerFuse 将平均 Recall@10 从 37.3 提高到 42.3,ScoringModel 进一步将其提高到 52.2,且无需推理时融合。在转换查询上,ScoringModel 相比最佳基线平均将 Recall@10 提高了 13.2 个百分点,在 Llama-3.1-8B 和 Qwen3-8B 上分别获得 +26.9 和 +20.0 的特别大增益。Recall@1 和 Recall@5 在更严格的截止值下显示出相同的模式,特别是对于较大的目标模型。这些结果表明,稳健的溯源评估不应止步于干净的词汇或语义检索:免训练的激活证据可以在许多设置中改善检索,带有硬负样本的监督归因可以恢复通用相似性错过的更强源支持信号。

我们的贡献如下:

- 我们将稳健的精准溯源公式化为一个源归因任务,评估方法是否能区分真实答案支持与主题或词汇相似性。
- 我们引入了 FakeWiki,这是一个具有真实源文档、简短问答探针、保留来源的变体、硬对抗文档和转换查询条件的基准测试。
- 我们提出了 ScoringModel,一种使用硬负样本训练的监督对比溯源评分器,并在无需推理时检索融合的情况下进行评估。
- 我们提供了广泛的实证研究,涵盖九个开放权重的指令微调 LLM、五种查询条件、十一种检索基线、SteerFuse 和 ScoringModel,并在附录中提供了额外的每模型、种子、Recall@1、Recall@5 和消融分析。

## 2 相关工作

#### 训练数据归因和源检索

训练数据归因询问哪些示例或文档与模型行为相关联。影响风格方法通过梯度、检查点、近似或可扩展代理来估计对预测或损失的影响(Pruthi et al., 2020; Han 和 Tsvetkov, 2021; Barshan et al., 2020; Park et al., 2023; Kwon et al., 2023),但解决的是关于训练动力学的互补因果问题。我们研究的是一个操作性溯源任务:给定候选语料库和生成的响应,对可检查的源文档进行排序。这最接近基于检索的源追踪,其中 MinHash 捕获词汇重叠(Broder, 1997),而 SBERT、Contriever、BGE 和微调嵌入捕获语义相似性(Reimers 和 Gurevych, 2019; Izacard et al., 2022; Xiao et al., 2024; Rajani et al., 2019; Fotouhi et al., 2024)。相关工作还研究了源感知事实追踪和对比归因嵌入(Akyürek et al., 2022; Khalifa et al., 2024; Wang et al., 2024)。我们在反捷径条件下评估基于检索的溯源,这些条件将答案支持与主题或词汇相似性区分开来。

#### 激活空间证据

激活空间方法使用内部隐藏状态来解释或改变模型行为。 prior work 已提取潜在引导向量(Subramani et al., 2022),在推理时添加激活方向(Turner et al., 2023; Panickssery et al., 2023),并使用隐藏表示进行监控、控制、真实性或潜在知识读取(Zou et al., 2023; Li et al., 2023; Burns et al., 2023)。我们在溯源方面建立在这种视角之上:即使候选文档的措辞与生成的文本不接近,它也可能为响应提供内部证据。SteerFuse 通过将文档诱导的激活方向与响应表示进行比较,并将产生的信号与 SBERT 检索融合来测试这一想法。我们将这种激活空间证据视为对文本检索的补充,而不是替代。

## 3 FakeWiki 基准测试

溯源基准测试应提供真实来源,而不应通过罕见名称或复制短语使归因变得可解。FakeWiki 通过伪造的维基百科风格文章、保留来源的变体、对抗文档和转换提示来解决这种张力。表 1 总结了基准测试组件。共同地,它们削弱了措辞重叠,改变了事实背景,保留了硬主题干扰项,并破坏了提示-响应的表面形式。

| 组件 | 包含内容 | 测试内容 |
| :--- | :--- | :--- |
| 伪造文章 | 3,537 篇关于非真实实体和概念的维基百科风格文档 | 在明确目标模型暴露后,不依赖现实世界预训练知识的受控溯源 |
| 问答探针 | 每篇文档五个简短的问答探针 | 当响应仅包含稀疏源证据时归因是否有效 |
| 源变体 | 改写、逆向生成的文档和对抗文档 | 方法是否能区分真实答案支持与主题或词汇相似性 |
| 查询条件 | 干净、混淆、角色扮演、噪声注入和间接 | 溯源在改变表面线索的提示转换下是否依然存在 |

**表 1:FakeWiki 基准测试设计。** 每个组件旨在削弱普通检索方法可能利用的不同捷径。

### 3.1 文档语料库

FakeWiki 包含 3,537 篇伪造的维基百科风格文章。我们通过三个阶段构建语料库:

1. **生成**。GPT-4o(Hurst et al., 2024)、DeepSeek-V3(Liu et al., 2024)和 Phi-4(Abdin et al., 2024)撰写关于现实中不应存在的实体或概念的简短、内部一致的百科全书式文章。
2. **多样化**。我们在虚构人物、地点、人工制品、事件、组织和技术概念之间进行采样,以确保语料库不被单一模板主导。
3. **去重和过滤**。我们使用 Jaccard 阈值为 0.85 的 MinHash-LSH 移除近重复项(Broder, 1997),然后使用 LLM 存在性过滤器丢弃被认为可能对应真实公共实体、事件或概念的标题。

幸存的文章被分配稳定的文档标识符,并形成受控的伪造语料库,目标模型不应从普通预训练中获得这些知识。然后我们通过继续预训练将此语料库注入每个目标模型,因此归因任务询问方法是否能恢复哪个注入的训练文档支持后续的响应。

### 3.2 目标模型暴露和评估分割

对于第 5 节中的每个目标 LLM,我们从公共指令微调检查点开始,并使用因果语言建模目标在 FakeWiki 文本上继续预训练。该语料库包含原始文章和构建的变体,但不包含问答探针、参考答案或转换查询。因此,模型将伪造的知识视为训练文本,而不记忆评估提示。归因分割与目标模型暴露分开。因为任务是将响应归因于训练文档,目标 LLM 可能会看到...

相似文章

大型语言模型的信息论对抗训练

arXiv cs.LG

本文介绍了 WARDEN,一种用于大型语言模型的分布鲁棒对抗训练框架。该框架利用 f-散度动态调整对抗样本的权重,在显著降低攻击成功率的同时保持了计算效率。

DART:通过蒸馏-审计-修复训练缓解差异感知大语言模型中的有害漂移

arXiv cs.CL

# 通过蒸馏-审计-修复训练缓解差异感知大语言模型中的有害漂移 来源:[https://arxiv.org/html/2604.16845](https://arxiv.org/html/2604.16845) Ziwen Pan1 Zihan Liang111footnotemark:1 Jad Kabbara2 Ali Emami1 1埃默里大学 2麻省理工学院 {ziwen\.pan, zihan\.liang, ali\.emami}@emory\.edu, jkabbara@mit\.edu ###### 摘要 经过安全调优的大语言模型(LLM)通常会回避承认人口统计差异,即使这种承认在事实上是正确的(例如,基于血统的

面向大型语言模型归因引导的持续学习

arXiv cs.LG

本文提出了一种面向大型语言模型的归因引导持续微调框架,该框架能够估计 Transformer 层中特定任务相关的参数重要性并相应地调节梯度,在保持新任务性能的同时缓解了灾难性遗忘。