向量并非中性:从导出的大语言模型表征中推断敏感信息——以摘要生成为例

arXiv cs.CL 论文

摘要

本文探讨了在临床摘要生成中从导出的大语言模型表征推断敏感信息的风险,表明减少一个向量工件的泄露并不能保证其他工件的隐私。提出了SurfaceLoRA,一种微调方法,可在保持效用的同时减少从目标向量中恢复种族信息的能力。

arXiv:2605.26433v1 公告类型:新 摘要:大语言模型(LLM)摘要系统可能会将私有输入的紧凑向量表示传递给下游的检索、监控、审计或分析工作流程。即使源文档仍然受访问限制,派生向量可能在不同访问控制下被处理,仍能支持敏感信息推断,从而造成残余的信息泄露风险。我们以临床出院摘要生成为高风险案例研究,使用电子健康记录(EHR)记录的种族作为受控的敏感标签审计。我们审计了系统可能保留或暴露给下游组件的两个工件:最终提示词token的隐藏状态和平均池化的提示词表示。结果表明,减少从一个导出工件中恢复案例研究敏感标签的能力并不一定会减少从另一个工件中恢复的能力。作为缓解案例研究,我们引入了SurfaceLoRA,这是一种针对导出向量的参数高效微调方法,它使用附加在指定导出向量上的梯度反转判别器。在平衡的五路探针协议下,SurfaceLoRA将目标最终token工件中EHR记录种族的可恢复性降低到接近随机水平,同时保持摘要效用,但未目标的池化工件中的可恢复性仍然显著更高。这些发现表明,隐私审计和缓解措施应针对保留或暴露给下游组件的确切向量工件进行。
查看原文
查看缓存全文

缓存时间: 2026/05/27 09:05

# 向量并非中立:从导出的大语言模型摘要表示中推断敏感信息  
**来源**:https://arxiv.org/html/2605.26433  

魏欣·刘¹,博文·屈¹,居明·熊¹,丛宁·倪²,布拉德利·A·马林¹˒²,尹志军¹˒²  
¹ 范德比尔特大学,² 范德比尔特大学医学中心  
{weixin.liu, bowen.qu, juming.xiong}@vanderbilt.edu  
{congning.ni.1, b.malin, zhijun.yin.1}@vumc.org  

###### 摘要  

大语言模型(LLM)摘要系统可能会将私有输入的紧凑向量表示传递给下游的检索、监控、审计或分析工作流。即使源文档仍受访问限制,导出的向量也可能在不同的访问控制下被处理,并仍能支持敏感信息推断,从而造成残余的信息泄露风险。我们以临床出院小结生成为高风险的案例研究,使用电子健康记录(EHR)中记录的种族作为受控的敏感标签审计对象。我们对系统可能保留或暴露给下游组件的两种工件进行审计:最终的提示词令牌隐藏状态和平均池化的提示词表示。我们的结果表明,从一种导出工件中减少案例敏感标签的可恢复性,并不一定能减少从另一种工件中的可恢复性。作为缓解措施的案例研究,我们引入了 **SurfaceLoRA**,一种面向导出向量的参数高效微调方法,该方法在指定的导出向量上附加了一个梯度反转判别器。在平衡的五分类探测协议下,**SurfaceLoRA** 将针对性的最终令牌工件中 EHR 记录种族可恢复性降低至随机水平,同时保持了摘要的实用性,但来自非目标池化工件的可恢复性仍然显著更高。这些发现表明,隐私审计和缓解措施应针对保留或暴露给下游组件的确切向量工件来执行。  

## 1 引言  

大语言模型(LLM)越来越多地被用于总结长篇幅的敏感文档。在许多摘要工作流中,源文本可能仍然受访问限制,而导出的向量工件则可能被保留、缓存、记录、索引或传递给下游系统组件用于检索、监控、审计或分析(Lewis et al., 2020;Karpukhin et al., 2020;Wang et al., 2021;Douze et al., 2024;Zeng et al., 2024)。这引出了一个普遍的信息泄露问题:即使用于摘要的原始文本受到保护,导出的向量是否仍然能够支持推断源文档所描述个体的敏感信息?这个问题即使在不假设恶意使用的情况下,也具有政策和治理相关性。一个下游组件、服务提供商、分析师或审计员可能有权访问存储的向量,但缺乏查看原始文本或结构化敏感属性的授权。如果这些向量被视为不应揭示个体层面信息的派生工件,那么成功地从这些向量中恢复敏感信息本身就是一种残留的泄露风险。这一关切与数据保护指南一致,该指南将匿名化视为一种基于风险的评估,涉及残留风险,如个体识别、可关联性和推断(欧洲议会和欧盟理事会,2016;第29条数据保护工作组,2014)。这也得到了先前工作的支持,这些工作表明文本嵌入可以揭示关于底层文本的大量信息(Morris et al., 2023;Li et al., 2023;Chen et al., 2024;Huang et al., 2024;Chen et al., 2025),并且 LLM 衍生的内部表示可能产生反转或属性推断风险(Zhu et al., 2024;Dong et al., 2025)。附录 A 提供了更详细的操作说明和威胁模型。  

我们在临床笔记摘要中具体化了这个普遍问题。具体来说,我们研究了简短的住院过程(BHC)生成,其中模型将住院过程总结为出院小结叙述,描述入院、诊断、治疗、临床轨迹和随访考虑(Adams et al., 2021;Searle et al., 2023;Yang et al., 2022;Aali et al., 2025b)。临床数据提供了一个高风险场景,其中原始笔记和人口统计字段受访问限制,但衍生的表示仍可能被用于系统操作。作为案例研究的敏感属性,我们审计了是否可以从导出的向量工件中推断出电子健康记录(EHR)中记录的种族。我们使用种族作为敏感属性推断的受控示例,而非唯一关注的属性;其他属性如年龄、性别或性别认同、民族、语言、保险状况和社会经济代理变量也会引发类似关切,可能需要单独或多属性审计。  

摘要系统暴露的向量可以通过多种方式定义。在本研究中,我们审计了生成前计算的两个合理的提示词派生工件:**lasttok**,即解码前最后一个提示词令牌的隐藏状态,作为一个紧凑的提示词级别向量;以及 **meanpool**,即所有非填充提示词令牌隐藏状态的平均值,类似于用于检索、语义索引或分析的池化嵌入(Lewis et al., 2020;Karpukhin et al., 2020;Wang et al., 2021;Douze et al., 2024)。使用在冻结的导出向量上训练的标准事后探测方法(Elazar and Goldberg, 2018;Belinkov and Glass, 2019),我们发现泄露是工件特定的:降低 **lasttok** 上敏感属性的可预测性并不意味着降低 **meanpool** 上的可预测性。  

作为缓解措施的案例研究,我们引入了 **SurfaceLoRA**,一种面向导出向量的参数高效微调(PEFT)方法,基于 LoRA 和梯度反转(Hu et al., 2022;Ganin et al., 2016)构建。**SurfaceLoRA** 在指定的导出向量上附加一个训练时的判别器,同时仅更新 LoRA 适配器和判别器。其目标不是通用净化,而是降低系统打算保留或暴露的特定向量工件上指定敏感标签的可恢复性。我们使用与训练时判别器分离的冻结导出向量上的事后线性和非线性探测进行评估。我们的结果表明,**SurfaceLoRA** 可以在平衡的五分类探测协议下,将针对性的 **lasttok** 工件上 EHR 记录种族的可预测性降低至随机水平,同时保持 BHC 摘要的实用性。相比之下,从池化工件(如 **meanpool**)中,EHR 记录种族的可恢复性仍然显著更高。此外,实用性-泄露权衡在训练过程中是非单调的,这促使使用将要保留或审计的相同导出工件进行保留检查点选择。  

**贡献**。我们做出三项贡献:(i) 将导出摘要向量作为敏感信息推断的具体审计目标;(ii) 表明接近随机水平的恢复从一个导出向量可以与从另一个向量中的实质性恢复共存;(iii) 引入 **SurfaceLoRA**,一种面向工件的 PEFT 缓解方法,在保持摘要实用性的同时降低 **lasttok** 上的可恢复性,而池化和多属性设置则需要单独审计。  

## 2 相关工作  

我们的工作连接了摘要、表示隐私和对抗性缓解。摘要系统通常评估生成质量,但敏感文档摘要也引发了关于中间工件(这些工件被存储、重用或暴露)中保留了哪些信息的问题。我们通过面向出院的临床摘要作为高风险案例研究来研究这个更广泛的问题。语言模型在住院过程和出院小结生成方面表现出色(Adams et al., 2021;Searle et al., 2023;Yang et al., 2022;Chen et al., 2023;Aali et al., 2025b),而 MIMIC 衍生的语料库提供了基于去标识化电子健康记录数据的凭证访问基准(Johnson et al., 2016, 2023a;Aali et al., 2025a, b)。最近的临床摘要工作强调在表面生成质量之外的验证和风险感知评估(Asgari et al., 2025;Chung et al., 2025)。我们将这种风险感知视角从生成的摘要扩展到导出的向量表示。  

表示泄露通常通过探测来评估,即训练攻击者从冻结的表示中恢复敏感属性(Elazar and Goldberg, 2018;Belinkov and Glass, 2019)。然而,探测结果取决于攻击者的能力以及审计下的具体表示选择(Hewitt and Liang, 2019;Pimentel et al., 2020)。补充攻击可以作用于生成的文本或模型输出(Carlini et al., 2021),而嵌入反转攻击则从嵌入表示中恢复文本或属性(Morris et al., 2023;Li et al., 2023;Chen et al., 2024;Huang et al., 2024;Chen et al., 2025)。最近的研究进一步表明,LLM 衍生的嵌入和内部状态可能暴露敏感信息(Zhu et al., 2024;Dong et al., 2025)。在摘要工作流中,关于工件特定泄露的了解较少,其中不同的提示词派生向量可能因不同的下游目的而被保留或重用。  

缓解策略作用于管道的不同点。文本级方法,如去标识化和编辑,在原始文本进入下游建模之前减少其中的泄露(Dernoncourt et al., 2017),但它们并不直接解决模型处理文本后从转换或嵌入的表示中仍可恢复哪些信息的问题。表示级方法则旨在减少从学习特征中受保护属性的可恢复性。使用梯度反转的对抗性学习训练任务有用的表示,同时阻止受保护属性的预测(Ganin et al., 2016;Edwards and Storkey, 2015;Madras et al., 2018;Zhang et al., 2018;Elazar and Goldberg, 2018)。事后方法如 INLP、线性对抗概念擦除和 LEACE 可以从学习表示中移除线性可恢复的信息(Ravfogel et al., 2020, 2022;Belrose et al., 2023)。我们应用了一种轻量级的基于 LoRA 的干预(Hu et al., 2022),但我们的重点是面向部署:审计和缓解确切的导出向量,然后使用保留的实用性-泄露权衡选择检查点。  

## 3 方法  

#### 概述。  
我们在 BHC 生成中具体化了导出向量审计,这是一个临床摘要案例研究,其中提示词派生向量可能被缓存、索引、记录或在下游重用(Lewis et al., 2020;Karpukhin et al., 2020;Wang et al., 2021;Douze et al., 2024;Zeng et al., 2024)。对于每个示例,提示词包含系统指令、源临床上下文和助手生成标题,但不包含目标 BHC、生成的摘要或种族标签。我们审计两个生成前的提示词工件:**lasttok**,即最后一个提示词令牌的隐藏状态,以及 **meanpool**,即平均提示词令牌隐藏状态。给定一个冻结的工件,事后探测从该确切向量中预测五分类的 EHR 记录种族标签。  

### 3.1 数据集与预处理  

我们的主要数据集是 MIMIC-IV-Ext-BHC(v1.2.0),这是一个基于去标识化 MIMIC-IV EHR 数据的 PhysioNet 住院摘要语料库(Johnson et al., 2023a;Aali et al., 2025a);每个实例将一份出院记录(BHC 已被移除)与一个干净的 BHC 目标配对。我们还评估了 Discharge Me(v1.3),这是一个 BHC 相关的 MIMIC 衍生任务,具有不同的输入构建,包括主诉、诊断代码和放射学报告(Johnson et al., 2016, 2023a;Xu, 2024)。对于每个数据集,我们提取就诊级别的 EHR 记录种族标签,并将其映射为五个组(白人、黑人、西班牙裔、亚洲人、其他),排除“未知”类别因其分配不明确。我们在患者级别将主要数据集分割为互斥的训练/验证/测试集,分别有 193,470 / 21,552 / 24,445 个实例。为了在受控的类别比例下审计种族的可恢复性,我们在每个分割中通过从每个种族组中抽取相等数量的示例来构建种族平衡的子集,得到 **bal_train**(共 20,000 个)、**bal_val**(共 2,500 个)和 **test_balanced**(共 2,500 个)。这些子集将用于

相似文章

内存增强型LLM智能体中的状态污染

arXiv cs.AI

本文识别并研究了LLM智能体中的“记忆洗白”现象,即有毒或对抗性上下文被压缩成记忆摘要后,能够逃避标准毒性检测器,同时仍影响后续生成。文章引入了亚阈值传播间隙(SPG)来衡量隐藏的下游影响,并表明在摘要之前对有毒状态进行消毒比事后清理更有效。