RedactionBench

arXiv cs.CL 2026/06/18 04:00 论文

pii-redaction benchmark llm privacy contextual-integrity entity-recognition

摘要

RedactionBench 是一个手工标注的基准，用于评估大语言模型中的上下文个人身份信息（PII）脱敏，提出了 R-Score 指标，并表明上下文脱敏仍是一个未解决的问题。

arXiv:2606.18782v1 公告类型：新摘要：大语言模型越来越多地应用于需要脱敏个人身份信息（PII）的敏感领域。虽然脱敏 PII 是数据清洗的前提条件，但现有基准将提取机制与隐私语义混为一谈。公开电话号码与病历中的电话号码并不等同。信息是否构成违规在很大程度上取决于谁拥有它、出于什么原因以及在什么上下文中，这从根本上将脱敏与简单的实体识别区分开来。基于上下文完整性，我们引入了 RedactionBench，这是一个手工标注的基准，包含来自 11 个领域的 200 份多样化文档，大部分来源于真实世界。我们还引入了 R-Score，一种新颖的字符级指标，它将语义相似的脱敏同等对待，并消除浅层格式选择（例如电话号码的不同掩码样式）的影响。对命名实体识别模型、实体提取小型语言模型以及配备智能工具的前沿模型的评估表明，上下文脱敏仍是一个未解决的问题。在 RedactionBench 上对超过 80 名用户进行的人工评估揭示了隐私感知上的鲜明二分法。标注者对强制性脱敏（89.4%）和安全文本保留（94.1%）的目标标签达成共识，但在上下文脱敏（47.7%）上未能达成一致。这种差异表明了上下文隐私的主观性，并推动了 R-Score 的产生，它将上下文歧义与严格精确度解耦。我们比较了来自不同系列的 35 个模型，并报告了它们在脱敏 PII 方面的性能。最后，我们发布了 RedactionBench，为未来的隐私保护系统建立基线，希望能激发高效的模型设计和标准化评估。

查看原文

查看缓存全文

缓存时间: 2026/06/18 05:46

# RedactionBench
来源：https://arxiv.org/abs/2606.18782
## 标题：RedactionBench

查看PDF (https://arxiv.org/pdf/2606.18782)

> 摘要：大型语言模型越来越多地应用于需要删除个人身份信息（PII）的敏感领域。虽然删除PII是一项数据清洗的前置工作，但现有基准混淆了抽取机制与隐私语义。公开的电话号码与医疗记录中的电话号码并不等同。信息是否构成侵权，在很大程度上取决于谁持有信息、为何持有以及持有信息的上下文，这从根本上区分了删除与简单的实体识别。基于上下文完整性原则，我们引入了RedactionBench，这是一个手动标注的基准，包含来自11个领域的200份多样化文档，大部分源自真实世界材料。我们还引入了R-Score，一种新颖的字符级指标，它将语义上相似的删除同等对待，并消除了浅层格式选择（如电话号码的不同掩码样式）的影响。对命名实体识别模型、实体抽取小语言模型以及配备智能体工具的前沿模型的评估表明，上下文删除仍然是一个未解决的问题。在RedactionBench上进行的、涉及80多名用户的人工评估揭示了隐私感知中的显著分歧。标注者对于强制删除的标签达成共识（89.4%）以及保留安全文本的共识（94.1%），但在上下文删除上无法达成一致（47.7%）。这种差异凸显了上下文隐私的主观性，并促使我们设计R-Score，它将上下文歧义与严格精确度解耦。我们比较了35个不同系列的模型，并报告了它们在删除PII方面的性能。最后，我们公开发布RedactionBench，为未来的隐私保护系统建立基准，希望激发高效的模型设计和标准化的评估。

## 提交历史

来自：Madhav Aggarwal \[查看电子邮件 (https://arxiv.org/show-email/7db8d863/2606.18782)\] **\[v1\]** 2026年6月17日 星期三 07:51:56 UTC (401 KB)

RedactionBench

相似文章

RedBench：大型语言模型综合红队测试通用数据集

SpeechEditBench：面向指令引导语音编辑的双语多属性基准

AdversaBench: 自动化LLM红队测试的多裁判确认与跨模型迁移性

PaintBench: 精确视觉编辑的确定性评估

MCBench: 面向全模态大语言模型的多语境安全评估基准

提交意见反馈