大语言模型能泄露训练数据，但它们愿意吗？对LLM记忆的倾向性感知评估

Hugging Face Daily Papers 2026/06/04 00:00 论文

llm memorization data-leakage evaluation propensity framework

摘要

PropMe是一个倾向性感知框架，用于评估LLM的记忆，区分强制复现能力和自然倾向，使用SimpleTrace在开放模型和数据集上进行确定性归因。

大型语言模型可以重现训练数据，但现有的记忆评估大多衡量模型是否可以被强制做到这一点，而不是它们在正常使用中是否会这样做。我们提出了PropMe，一个倾向性感知的记忆评估框架，它对比了基于前缀的能力攻击与非对抗性评估。我们提出了一种指标转换，应用于现有函数，可以创建倾向性指标。我们进一步引入了SimpleTrace，一个基于infini-gram构建的轻量级追踪管道，能够将模型生成内容确定性归因到大规模训练语料库，并计算逐字、近似逐字以及倾向性转换的记忆指标。评估两个完全开放模型：Comma和DFM Decoder，在两个数据集：Common Pile和Dynaword，以及两种语言上，我们发现能力与倾向性之间存在一致的差距：前缀攻击引发的记忆信号比通用或特定数据集提示强烈得多，而倾向性分数整体较低。因此，模型在直接诱导时可以揭示训练数据，但在更常见的非对抗性设置中很少这样做。我们还发现，DFM Decoder（从Comma持续预训练而来）在Common Pile上的记忆和记忆倾向性均有所降低，这证实了当后续训练强调部分不同的数据时，记忆能力可能会下降。我们的结果表明，并且我们鼓励，记忆审计应同时报告最坏情况可提取性和普通泄露倾向性，以便更全面地了解这一现象。

查看原文

查看缓存全文

缓存时间: 2026/06/05 10:07

论文页面 - 大型语言模型能泄露训练数据，但它们愿意吗？面向倾向感知的LLM记忆评估

来源：https://huggingface.co/papers/2606.06286

摘要

PropMe框架通过区分强制复现能力与自然倾向，评估语言模型的记忆行为。该框架利用SimpleTrace实现确定性归因，并跨开放模型与数据集使用倾向变换指标。

大型语言模型能够复现训练数据，但现有的记忆评估研究大多衡量模型是否可以被强制复现数据，而非衡量模型在常规使用中是否会自然复现。我们提出PropMe——一种面向倾向感知的记忆评估框架，该框架对比了基于前缀的能力攻击与非对抗性评估。我们提出了一种度量变换方法，将其应用于现有函数后，可创建倾向度量指标。我们进一步介绍了SimpleTrace，这是一个基于infini-gram的轻量级追踪管线，能够确定性将模型生成内容归因至大规模训练语料库，并计算逐字、近逐字及倾向变换后的记忆度量指标。通过对两个全开放模型（Comma和DFM Decoder）在两个数据集（Common Pile和Dynaword）以及两种语言上的评估，我们发现能力与倾向之间存在持续差距：前缀攻击引发的记忆信号明显强于通用提示或数据集特定提示，而倾向分数总体保持较低。因此，模型在直接诱导下能够泄露训练数据，但在更常见的非对抗性设置中很少这样做。我们还发现，从Comma持续预训练的DFM Decoder在Common Pile上表现出更低的记忆能力和记忆倾向，证实当后续训练强调部分不同数据时，记忆能力可能下降。我们的结果表明，并鼓励记忆审计应同时报告最坏情况下的可提取性与常规泄露倾向，以便更全面地理解这一现象。

查看arXiv页面 (https://arxiv.org/abs/2606.06286)
查看PDF (https://arxiv.org/pdf/2606.06286)
GitHub0 (https://github.com/N-essuno/PropMe)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.06286)

在您的智能体中获取此论文：

hf papers read 2606.06286

没有最新CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

在模型README.md中引用arxiv.org/abs/2606.06286以将其链接至此页面。

引用此论文的数据集0

没有数据集链接此论文

在数据集README.md中引用arxiv.org/abs/2606.06286以将其链接至此页面。

引用此论文的 Spaces0

没有 Space 链接此论文

在Space README.md中引用arxiv.org/abs/2606.06286以将其链接至此页面。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到收藏集 (https://huggingface.co/new-collection)以将其链接至此页面。

大语言模型能泄露训练数据，但它们愿意吗？对LLM记忆的倾向性感知评估

论文页面 - 大型语言模型能泄露训练数据，但它们愿意吗？面向倾向感知的LLM记忆评估

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的收藏集0

相似文章

论大语言模型适应性的局限：模型内化先验对标注任务性能的影响

STALE：LLM智能体能否识别记忆何时失效？

LLMs与记忆限制——请审阅我的想法

评估 LLM 在受控实验中作为人类代理的可靠性

LLMs能否被约束在过往？通过基于回忆的提示改进知识截止

提交意见反馈