填充中间预训练的记忆动态
摘要
本文研究填充中间(FIM)预训练对逐字记忆的影响,发现FIM更常恢复短片段,而标准的从左到右训练恢复长的精确延续,且FIM下的记忆随重复次数线性增长。
arXiv:2605.22981v1 Announce Type: new
摘要:填充中间(FIM)是一种广泛用于赋予因果语言模型填充能力的预训练目标,但其对逐字记忆的影响尚未得到充分探索。我们在受控设置中研究了FIM的记忆动态,通过在包含重复Gutenberg摘录的FineWeb-Gutenberg语料库上使用FIM和标准从左到右(LTR)目标对匹配的Llama 3.2模型进行预训练。基于前缀的探测显示,FIM更常恢复短片段或部分匹配,而LTR更常对长的精确延续赋予高置信度。我们观察到,在测试范围内,FIM训练下的逐字提取随重复次数近似线性增长。评估原生FIM格式探测表明,后缀上下文并不充分:FIM训练下的逐字回忆仍然强烈锚定在前缀上下文中。我们的结果还表明,仅评估一个片段长度或探测格式可能会遗漏记忆行为中的重要细微差别。
查看缓存全文
缓存时间: 2026/05/25 08:56
###### 摘要
填充中间(Fill-in-the-Middle, FIM)是一种被广泛用于使因果语言模型具备填充能力的预训练目标,然而其对于逐字记忆的影响仍未被充分探索。我们在一个受控环境中研究了FIM的记忆化动态,通过在 FineWeb-Gutenberg 语料库(包含重复的古腾堡摘录)上使用 FIM 和标准从左到右(LTR)目标来预训练匹配的 Llama 3.2 模型。基于前缀的探测显示,FIM 更常恢复较短或部分匹配的片段,而 LTR 更常对完整的长续接赋予高置信度。我们观察到,在测试范围内,FIM 训练下的逐字提取量随重复次数近似线性增长。评估原生 FIM 格式的探测表明,后缀上下文并不足够:FIM 训练下的逐字回忆仍然强烈依赖于前缀上下文。我们的结果还表明,仅评估一种片段长度或探测格式可能会遗漏记忆化行为中的重要细微差别。
记忆化,填充中间,大型语言模型,预训练
## 1 引言
大型语言模型可以重现训练数据,包括稀有字符串、私人信息、代码和书籍段落等(Carlini 等,2019 (https://arxiv.org/html/2605.22981#bib.bib10),2021 (https://arxiv.org/html/2605.22981#bib.bib11);Nasr 等,2025 (https://arxiv.org/html/2605.22981#bib.bib14);Cooper 等,2026 (https://arxiv.org/html/2605.22981#bib.bib16))。早期工作通过合成金丝雀和暴露分数来衡量非有意的记忆(Carlini 等,2019 (https://arxiv.org/html/2605.22981#bib.bib10));后来的攻击则提取了真实的训练样本(Carlini 等,2021 (https://arxiv.org/html/2605.22981#bib.bib11);Nasr 等,2025 (https://arxiv.org/html/2605.22981#bib.bib14))。近期工作研究了贪心解码之外的信息泄露,包括概率性提取(Hayes 等,2025 (https://arxiv.org/html/2605.22981#bib.bib17))、书籍级别提取(Cooper 等,2026 (https://arxiv.org/html/2605.22981#bib.bib16))以及成员推断类测试(Mattern 等,2023 (https://arxiv.org/html/2605.22981#bib.bib18);Shi 等,2024 (https://arxiv.org/html/2605.22981#bib.bib19))。
重复是记忆化最明确的预测因子之一。去重减少了逐字生成(Lee 等,2022 (https://arxiv.org/html/2605.22981#bib.bib20));重复次数预测了重新生成(Kandpal 等,2022 (https://arxiv.org/html/2605.22981#bib.bib21));随着暴露次数的增加,受控注入的样本被更频繁地恢复(Huang 等,2024 (https://arxiv.org/html/2605.22981#bib.bib22))。归因仍然困难,因为先前的可预测性、近似重复、分词方式、提示位置以及可用上下文都可能影响恢复(Kharitonov 等,2021 (https://arxiv.org/html/2605.22981#bib.bib23);Zhang 等,2023 (https://arxiv.org/html/2605.22981#bib.bib24);Shilov 等,2026 (https://arxiv.org/html/2605.22981#bib.bib25);Liu 等,2024 (https://arxiv.org/html/2605.22981#bib.bib26);Xu 等,2026 (https://arxiv.org/html/2605.22981#bib.bib13))。
我们研究填充中间(FIM),这是一种因果语言模型常用的预训练目标(Bavarian 等,2022 (https://arxiv.org/html/2605.22981#bib.bib27))。标准从左到右(LTR)训练从每个 token 的前缀预测该 token。FIM 训练则将目标中间片段移动到前缀和后缀之后,并用分隔 token 隔开,从而使模型在训练时既能接触到左侧上下文,也能接触到右侧上下文。填充功能被用于 DeepSeek-v3、InCoder、StarCoder 和 Code Llama 等系统中(DeepSeek-AI 等,2025 (https://arxiv.org/html/2605.22981#bib.bib12);Fried 等,2023 (https://arxiv.org/html/2605.22981#bib.bib28);Li 等,2023 (https://arxiv.org/html/2605.22981#bib.bib29);Rozière 等,2023 (https://arxiv.org/html/2605.22981#bib.bib30))。先前的工作主要强调填充的实用性;这里我们探究该目标如何影响逐字提取。
我们进行了一项受控研究,在匹配的架构和数据源下比较标准 LTR 和 FIM 预训练,试图回答三个相关的问题:
1. \(i\) FIM 如何影响不同目标片段长度、提取阈值和重复次数下的逐字记忆?
2. \(ii\) 在原生 FIM 提示下,前缀上下文、后缀上下文以及分隔 token 如何贡献于逐字记忆?
3. \(iii\) 观察到的效应是否特异于提取几何形态,还是可以用模型整体质量差异来解释?
## 2 研究设计
我们在相同的数据、架构和参数上训练匹配的 LTR 和 FIM 模型并进行比较。受控条件使我们能够将记忆化差异归因于预训练格式。
### 2.1 匹配训练与受控重复
主体语料库是 FineWeb-100B,而我们的受控记忆化语料库由古腾堡计划书籍构成(Penedo 等,2024 (https://arxiv.org/html/2605.22981#bib.bib31);Project Gutenberg, n.d. (https://arxiv.org/html/2605.22981#bib.bib32))。我们用仅在 FineWeb 上训练的 Llama 3.2 模型(Llama Team, 2024 (https://arxiv.org/html/2605.22981#bib.bib35))对古腾堡书籍中 4096 token 的窗口进行评分,以过滤掉已被预记忆、异常和重复的窗口。由此得到的干净摘录集被分为 12 个重复桶,每个桶包含 2,810 个摘录,暴露次数从 1 到 128。我们根据先验困惑度平衡桶的分配。
我们从相同的数据源构建了两个语料库。LTR 语料库保持自回归顺序。FIM 语料库将样本重写为以分隔 token 分隔的前缀-后缀-中间顺序,其中片段被随机划分。特别地,重复的 FIM 副本使用不同的分割点,因此重复是文档级别的暴露,而非固定中间片段的暴露。FIM 语料库中 FineWeb 部分包含 50% 的 FIM 文档(其余为 LTR),古腾堡部分则 100% 为 FIM 文档。
两个模型使用相同的 Llama 3.2 3B 架构,并在约 103B token(约 95%/5% FineWeb/古腾堡)上训练一个 epoch。进一步的实验细节见附录A (https://arxiv.org/html/2605.22981#A1),模型规模的消融实验见附录B.2 (https://arxiv.org/html/2605.22981#A2.SS2)。
### 2.2 下游性能
我们在 LM Evaluation Harness 的 8 个任务(Gao 等,2023 (https://arxiv.org/html/2605.22981#bib.bib8))上评估了两个模型,观察到两者获得了几乎相同的性能。详细指标见附录B.1 (https://arxiv.org/html/2605.22981#A2.SS1)。我们得出结论:在本研究的背景下,记忆化差异并非由模型能力差异导致。
## 3 仅前缀提取
我们使用相同的仅前缀探测来比较 FIM 和 LTR:用 100 个前缀 token 预测长度为 M=32 的目标 token 片段。对于每个重复桶,我们在相同的古腾堡窗口上探测两个模型,每个摘录采样 10 个不重叠的窗口。
我们报告两个指标。首先,受 Cooper 等人 (2026 (https://arxiv.org/html/2605.22981#bib.bib16)) 启发,精确提取计算 p_z = ∏_{i=1}^M q_i,其中 q_i 是第 i 个目标 token 在 k=40, T=1 下的 top-k 重归一化概率。如果 p_z ≥ 0.1%,则称目标为可提取的。其次,我们从前缀开始自回归生成 M 个 token,并报告 ROUGE-L(Lin, 2004 (https://arxiv.org/html/2605.22981#bib.bib9)),遵循 Chen 等人 (2025 (https://arxiv.org/html/2605.22981#bib.bib33)),将 ROUGE-L ≥ 0.5 视为高重叠恢复。使用 M=32 使我们能够在同一窗口上评估两个指标。这比 Cooper 等人 (2026 (https://arxiv.org/html/2605.22981#bib.bib16)) 中 M=50 的设置(几何均值 80.6% vs 87.1%)在每个 token 上更宽松。我们在图 3 (https://arxiv.org/html/2605.22981#S3.F3) 中改变 M。
参见标题(a) 逐字提取率
参见标题(b) 高重叠恢复率
图1:不同重复桶下的记忆化。对于严格的完整片段提取,LTR 在总体上更高,但在最大重复桶中 FIM 提取了更多窗口。FIM 在高重复次数下产生了更强的高重叠恢复。FineWeb 是仅使用 FineWeb 训练的基线。淡色带表示每个窗口率的名义 95% 置信区间。对于精确提取标准,LTR 整体记忆了更多窗口:3,279 个窗口满足 p_z ≥ 0.1%,而 FIM 为 2,230 个。FIM 在更广泛的恢复指标上略有优势,包括平均 ROUGE-L(FIM 0.198 vs LTR 0.190)和平均 top-k 支持率(87.09% vs 86.18%),即参考 token 包含在 top-k(k=40)logits 中的比例。低记忆化率部分源于探测位置。摘录起始位置的探测比随机采样的窗口记忆得更多(附录B.3 (https://arxiv.org/html/2605.22981#A2.SS3) 的图 7 (https://arxiv.org/html/2605.22981#A2.F7))。
虽然 FIM 模型的支持率更高,但概率质量在完整的 32 token 续接上不够集中。精确提取标准非常严格,以至于少数低概率 token 就可能使目标片段 p_z 崩溃。在重复次数 128 时的阈值扫描证实了这一点:图 2 (https://arxiv.org/html/2605.22981#S3.F2) 显示 FIM 在中等 p_z 值处有更多质量,但 LTR 有更重的尾部,因此在 0.1% 阈值下提取更多。
参见标题图2:重复128次时的提取生存曲线显示,FIM 将更多质量分配给中等可能性的目标,但 LTR 有更重的高置信度尾部。每条线表示当提取阈值 t 变化时,p_z ≥ t 的目标窗口百分比。95% 置信区间小于线宽。参见标题图3:不同目标长度下的提取率表明,FIM 超过 LTR 所需的重复次数随着片段长度增加而增加,因为更长的片段有利于 LTR 更重的尾部。曲线显示了前 20、30、40 和 50 个目标 token 中 p_z ≥ 0.1% 的窗口比例;所有子图使用相同的 y 轴刻度。淡色带表示每个窗口率的名义 95% 置信区间。与 Huang 等人 (2024 (https://arxiv.org/html/2605.22981#bib.bib22)) 一致,我们发现非平凡重复次数对于记忆化是必要的。这在意料之中,尤其是在 3B 模型规模下,因为记忆化随着模型容量增加而增加(Carlini 等,2023 (https://arxiv.org/html/2605.22981#bib.bib15))。我们在附录B.2 (https://arxiv.org/html/2605.22981#A2.SS2) 中研究了 1B 的消融。随着重复次数增加,LTR 提取显示出递减的回报,这与 Carlini 等人 (2023 (https://arxiv.org/html/2605.22981#bib.bib15)) 报告的对数趋势一致。虽然 FIM 提取随重复次数更稳定地上升,但在小重复次数下仍然很低。我们在图 3 (https://arxiv.org/html/2605.22981#S3.F3) 中消融了目标长度,并得出结论:FIM 在提取上超过 LTR 所需的重复次数随着片段长度增加而增加。这是因为更长的目标使得提取更严格,因此 LTR 的重尾分布占主导地位。
我们分析注意力模式以进一步背景化我们的见解。对于每个目标位置预测查询,我们将注意力分为 (i) 前缀 token 和 (ii) 已看到的目标 token。对于目标片段的第一个 token,后者为零,对于后续位置,它包括目标片段中所有更早的目标 token。我们在目标位置和窗口上取平均,并在表 1 (https://arxiv.org/html/2605.22981#S3.T1) 中报告平均注意力分配。与 LTR 模型相比,FIM 模型将更多注意力放在前缀上,而更少放在已看到的目标 token 上。
我们的观察可以通过 FIM 目标的结构来解释。重复的 LTR 样本以相同的从左到右视角呈现每个段落。这使概率质量集中在更少的长期续接上,导致重尾分布和增强的提取。而重复的 FIM 样本通过不同的前缀-中间-后缀分解暴露相同的段落,将质量分散到更多的部分重建上,从而扩大可恢复性。
表1:预测目标片段时的平均注意力分配。两个模型都主要依赖前缀,但 FIM 对前缀的依赖更强,而 LTR 将相对更多的注意力分配给较早的目标 token。名义 95% 置信区间低于 10^{-4}。
## 4 原生 FIM 探测
由于原生 FIM 格式同时包含左侧和右侧上下文,它本质上与仅前缀提取提示不同。我们研究 FIM 原生格式,以评估前缀和后缀上下文如何重新分配注意力并贡献于记忆化。与之前一样,我们对每个摘录采样 10 个不重叠的窗口,目标保持 32 个 token。然而,100 token 的上下文现在被分配到前缀和后缀之间。此外,我们将分析重点放在重复 128 次的桶上,其中记忆化最为普遍。请注意,这种探测格式包含 FIM 分隔 token,因此即使后缀为空,它也与第 3 节 (https://arxiv.org/html/2605.22981#S3) 中评估的前缀提示不同。
在图 4 (https://arxiv.org/html/2605.22981#S4.F4) 中,我们围绕一个固定目标变化前缀/后缀的分割,以测试原生 FIM 上下文的哪一侧对记忆化支持贡献更大。随着前缀增长和后缀缩小,top-k 支持率单调增加。相同趋势在所有重复桶以及提取率和目标似然中都成立(见附录B.3 (https://arxiv.org/html/2605.22981#A2.SS3))。在所有重复桶中,从仅有后缀的上下文移动到仅有前缀的上下文,目标困惑度从 60.23 下降到 27.93,而 top-k 支持率从 77.60% 上升到 85.52%。在可用前缀很少或没有时出现的急剧下降反映了因果语言模型的自回归结构:没有左侧上下文,模型没有可靠的起点来生成中间片段。
参见标题图4:在 128 次重复下,原生 FIM 几何结构中的目标 token top-k 支持率显示,随着 100 token 上下文预算中更多部分分配给前缀而非后缀,记忆化单调改善。x 轴变化前缀/后缀长度。线表示包含在 top-40 支持中的目标 token 百分比。95% 置信区间小于线宽。虽然前缀较重的原生 FIM 提示引发更强的记忆化,但后缀仍然提供条件作用。图 5 (https://arxiv.org/html/2605.22981#S4.F5) 中的注意力分析显示,大量注意力分配给前缀和后缀,前缀获得的注意力稍多。对于前缀非常少的提示,模型通过更关注目标片段的较早 token 来补偿。
参见标题图5:原生 FIM 探测下的注意力分配显示,模型使用两个周围上下文,前缀获得的注意力多于后缀,并且当前缀可用较少时,注意力转移到较早的目标 token。堆叠区域显示了分配给前缀 token、后缀 token、FIM 分隔 token 以及目标片段内更早目标 token 的平均注意力质量,在目标 token 预测查询和重复桶上取平均。x 轴变化前缀/后缀长度。为了直接分离前缀和后缀上下文的贡献,我们保持目标固定,并替换前缀和后缀。相似文章
高效训练语言模型执行中间填充任务
OpenAI 提出了一种简单的数据增强技术,使自回归语言模型能够执行填充中间(FIM)文本生成任务,同时不损害从左到右的性能。文章还提供了广泛的消融研究和训练此类模型的最佳实践。
通过填充提取扩散语言模型中的训练数据
本文介绍了infilling extraction(填充提取)方法,这是一种通过使用任意二进制掩码从扩散语言模型中提取训练数据的新方法,表明此类模型比之前认为的更容易受到记忆化攻击。
无需训练的词汇-密集融合用于会话记忆检索
本文提出了一种无需训练、仅使用CPU的检索方法,该方法将BM25词汇分数与后期交互密集分数相融合,用于会话记忆检索,在六个编码器上相比仅使用后期交互,在LoCoMo Hit@1上提升了高达+17.2个点。该研究提供了关于池化操作符、重排序器效果和基准鲁棒性的受控消融实验,将这种提升视为密集信号与词汇信号之间的分工。
PreFT:仅预填充微调以实现高效推理
PreFT 提出仅在预填充 token 上应用适配器,在解码阶段丢弃它们,从而在几乎不损失性能的情况下提高多适配器服务的吞吐量。
Found in Conversation: LLMs 自我学习以缩小多轮对话差距
本文介绍了 Found in Conversation (FiC),一个使用视图非对称自蒸馏(View-Asymmetric Self-Distillation)的训练框架,旨在缩小 LLMs 中的多轮对话性能差距。该方法教会模型从欠详细的多轮提示中恢复单轮能力,在多种模型系列和规模上实现了 92-100% 的恢复率。