大语言模型能泄露训练数据,但它们愿意吗?对LLM记忆的倾向性感知评估

Hugging Face Daily Papers 论文

摘要

PropMe是一个倾向性感知框架,用于评估LLM的记忆,区分强制复现能力和自然倾向,使用SimpleTrace在开放模型和数据集上进行确定性归因。

大型语言模型可以重现训练数据,但现有的记忆评估大多衡量模型是否可以被强制做到这一点,而不是它们在正常使用中是否会这样做。我们提出了PropMe,一个倾向性感知的记忆评估框架,它对比了基于前缀的能力攻击与非对抗性评估。我们提出了一种指标转换,应用于现有函数,可以创建倾向性指标。我们进一步引入了SimpleTrace,一个基于infini-gram构建的轻量级追踪管道,能够将模型生成内容确定性归因到大规模训练语料库,并计算逐字、近似逐字以及倾向性转换的记忆指标。评估两个完全开放模型:Comma和DFM Decoder,在两个数据集:Common Pile和Dynaword,以及两种语言上,我们发现能力与倾向性之间存在一致的差距:前缀攻击引发的记忆信号比通用或特定数据集提示强烈得多,而倾向性分数整体较低。因此,模型在直接诱导时可以揭示训练数据,但在更常见的非对抗性设置中很少这样做。我们还发现,DFM Decoder(从Comma持续预训练而来)在Common Pile上的记忆和记忆倾向性均有所降低,这证实了当后续训练强调部分不同的数据时,记忆能力可能会下降。我们的结果表明,并且我们鼓励,记忆审计应同时报告最坏情况可提取性和普通泄露倾向性,以便更全面地了解这一现象。
查看原文
查看缓存全文

缓存时间: 2026/06/05 10:07

论文页面 - 大型语言模型能泄露训练数据,但它们愿意吗?面向倾向感知的LLM记忆评估

来源:https://huggingface.co/papers/2606.06286

摘要

PropMe框架通过区分强制复现能力与自然倾向,评估语言模型的记忆行为。该框架利用SimpleTrace实现确定性归因,并跨开放模型与数据集使用倾向变换指标。

大型语言模型能够复现训练数据,但现有的记忆评估研究大多衡量模型是否可以被强制复现数据,而非衡量模型在常规使用中是否会自然复现。我们提出PropMe——一种面向倾向感知的记忆评估框架,该框架对比了基于前缀的能力攻击与非对抗性评估。我们提出了一种度量变换方法,将其应用于现有函数后,可创建倾向度量指标。我们进一步介绍了SimpleTrace,这是一个基于infini-gram的轻量级追踪管线,能够确定性将模型生成内容归因至大规模训练语料库,并计算逐字、近逐字及倾向变换后的记忆度量指标。通过对两个全开放模型(Comma和DFM Decoder)在两个数据集(Common Pile和Dynaword)以及两种语言上的评估,我们发现能力与倾向之间存在持续差距:前缀攻击引发的记忆信号明显强于通用提示或数据集特定提示,而倾向分数总体保持较低。因此,模型在直接诱导下能够泄露训练数据,但在更常见的非对抗性设置中很少这样做。我们还发现,从Comma持续预训练的DFM Decoder在Common Pile上表现出更低的记忆能力和记忆倾向,证实当后续训练强调部分不同数据时,记忆能力可能下降。我们的结果表明,并鼓励记忆审计应同时报告最坏情况下的可提取性与常规泄露倾向,以便更全面地理解这一现象。

查看arXiv页面 (https://arxiv.org/abs/2606.06286)
查看PDF (https://arxiv.org/pdf/2606.06286)
GitHub0 (https://github.com/N-essuno/PropMe)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.06286)

在您的智能体中获取此论文:

hf papers read 2606.06286

没有最新CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

在模型README.md中引用arxiv.org/abs/2606.06286以将其链接至此页面。

引用此论文的数据集0

没有数据集链接此论文

在数据集README.md中引用arxiv.org/abs/2606.06286以将其链接至此页面。

引用此论文的 Spaces0

没有 Space 链接此论文

在Space README.md中引用arxiv.org/abs/2606.06286以将其链接至此页面。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到收藏集 (https://huggingface.co/new-collection)以将其链接至此页面。

相似文章

STALE:LLM智能体能否识别记忆何时失效?

Hugging Face Daily Papers

本文识别了LLM智能体中的一个关键失效模式:当新证据与先前信念冲突时,它们无法更新个性化记忆。本文引入了STALE基准和一个三维探测框架,揭示了即使最佳模型也仅达到55.2%的准确率,并提出了CUPMem作为鲁棒记忆修正的原型。

LLMs与记忆限制——请审阅我的想法

Reddit r/ArtificialInteligence

本文分析了LLM记忆限制,认为真正的个人AI需要单租户权重定制,这与当前多租户云经济模式相冲突,并指出开源权重模型可能是进步的关键来源。

评估 LLM 在受控实验中作为人类代理的可靠性

arXiv cs.CL

本论文通过比较 LLM 生成的数据与人类在准确性感知调查中的反应,评估现成 LLM 是否能可靠地模拟受控行为实验中的人类反应。研究发现,虽然 LLM 能捕捉方向性效应和聚合信念更新模式,但它们的效应大小与人类尺度不一致,这有助于澄清合成 LLM 数据何时可以作为行为代理。