大语言模型能泄露训练数据,但它们愿意吗?对LLM记忆的倾向性感知评估
摘要
PropMe是一个倾向性感知框架,用于评估LLM的记忆,区分强制复现能力和自然倾向,使用SimpleTrace在开放模型和数据集上进行确定性归因。
查看缓存全文
缓存时间: 2026/06/05 10:07
论文页面 - 大型语言模型能泄露训练数据,但它们愿意吗?面向倾向感知的LLM记忆评估
来源:https://huggingface.co/papers/2606.06286
摘要
PropMe框架通过区分强制复现能力与自然倾向,评估语言模型的记忆行为。该框架利用SimpleTrace实现确定性归因,并跨开放模型与数据集使用倾向变换指标。
大型语言模型能够复现训练数据,但现有的记忆评估研究大多衡量模型是否可以被强制复现数据,而非衡量模型在常规使用中是否会自然复现。我们提出PropMe——一种面向倾向感知的记忆评估框架,该框架对比了基于前缀的能力攻击与非对抗性评估。我们提出了一种度量变换方法,将其应用于现有函数后,可创建倾向度量指标。我们进一步介绍了SimpleTrace,这是一个基于infini-gram的轻量级追踪管线,能够确定性将模型生成内容归因至大规模训练语料库,并计算逐字、近逐字及倾向变换后的记忆度量指标。通过对两个全开放模型(Comma和DFM Decoder)在两个数据集(Common Pile和Dynaword)以及两种语言上的评估,我们发现能力与倾向之间存在持续差距:前缀攻击引发的记忆信号明显强于通用提示或数据集特定提示,而倾向分数总体保持较低。因此,模型在直接诱导下能够泄露训练数据,但在更常见的非对抗性设置中很少这样做。我们还发现,从Comma持续预训练的DFM Decoder在Common Pile上表现出更低的记忆能力和记忆倾向,证实当后续训练强调部分不同数据时,记忆能力可能下降。我们的结果表明,并鼓励记忆审计应同时报告最坏情况下的可提取性与常规泄露倾向,以便更全面地理解这一现象。
查看arXiv页面 (https://arxiv.org/abs/2606.06286)
查看PDF (https://arxiv.org/pdf/2606.06286)
GitHub0 (https://github.com/N-essuno/PropMe)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.06286)
在您的智能体中获取此论文:
hf papers read 2606.06286
没有最新CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接此论文
在模型README.md中引用arxiv.org/abs/2606.06286以将其链接至此页面。
引用此论文的数据集0
没有数据集链接此论文
在数据集README.md中引用arxiv.org/abs/2606.06286以将其链接至此页面。
引用此论文的 Spaces0
没有 Space 链接此论文
在Space README.md中引用arxiv.org/abs/2606.06286以将其链接至此页面。
包含此论文的收藏集0
没有收藏集包含此论文
将此论文添加到收藏集 (https://huggingface.co/new-collection)以将其链接至此页面。
相似文章
论大语言模型适应性的局限:模型内化先验对标注任务性能的影响
本文研究了LLM的内化先验如何影响零样本标注性能,发现近三分之二的错误抵抗基于提示的修正,并引入了定义特定熟悉度(DSF)作为比记忆化指标更好的预测因子。
STALE:LLM智能体能否识别记忆何时失效?
本文识别了LLM智能体中的一个关键失效模式:当新证据与先前信念冲突时,它们无法更新个性化记忆。本文引入了STALE基准和一个三维探测框架,揭示了即使最佳模型也仅达到55.2%的准确率,并提出了CUPMem作为鲁棒记忆修正的原型。
LLMs与记忆限制——请审阅我的想法
本文分析了LLM记忆限制,认为真正的个人AI需要单租户权重定制,这与当前多租户云经济模式相冲突,并指出开源权重模型可能是进步的关键来源。
评估 LLM 在受控实验中作为人类代理的可靠性
本论文通过比较 LLM 生成的数据与人类在准确性感知调查中的反应,评估现成 LLM 是否能可靠地模拟受控行为实验中的人类反应。研究发现,虽然 LLM 能捕捉方向性效应和聚合信念更新模式,但它们的效应大小与人类尺度不一致,这有助于澄清合成 LLM 数据何时可以作为行为代理。
LLMs能否被约束在过往?通过基于回忆的提示改进知识截止
本文提出了基于回忆的提示策略(Self-Recall和Question-Recall),以提升LLM对知识截止的遵循能力,在反事实问题上优于现有方法,并引入多截止历史事件基准(MHEB)用于鲁棒性评估。