information-leakage

#information-leakage

向量并非中性：从导出的大语言模型表征中推断敏感信息——以摘要生成为例

arXiv cs.CL ↗ · 2026-05-27 缓存

本文探讨了在临床摘要生成中从导出的大语言模型表征推断敏感信息的风险，表明减少一个向量工件的泄露并不能保证其他工件的隐私。提出了SurfaceLoRA，一种微调方法，可在保持效用的同时减少从目标向量中恢复种族信息的能力。

0 人收藏 0 人点赞