RedactionBench

arXiv cs.CL 论文

摘要

RedactionBench 是一个手工标注的基准,用于评估大语言模型中的上下文个人身份信息(PII)脱敏,提出了 R-Score 指标,并表明上下文脱敏仍是一个未解决的问题。

arXiv:2606.18782v1 公告类型:新 摘要:大语言模型越来越多地应用于需要脱敏个人身份信息(PII)的敏感领域。虽然脱敏 PII 是数据清洗的前提条件,但现有基准将提取机制与隐私语义混为一谈。公开电话号码与病历中的电话号码并不等同。信息是否构成违规在很大程度上取决于谁拥有它、出于什么原因以及在什么上下文中,这从根本上将脱敏与简单的实体识别区分开来。基于上下文完整性,我们引入了 RedactionBench,这是一个手工标注的基准,包含来自 11 个领域的 200 份多样化文档,大部分来源于真实世界。我们还引入了 R-Score,一种新颖的字符级指标,它将语义相似的脱敏同等对待,并消除浅层格式选择(例如电话号码的不同掩码样式)的影响。对命名实体识别模型、实体提取小型语言模型以及配备智能工具的前沿模型的评估表明,上下文脱敏仍是一个未解决的问题。在 RedactionBench 上对超过 80 名用户进行的人工评估揭示了隐私感知上的鲜明二分法。标注者对强制性脱敏(89.4%)和安全文本保留(94.1%)的目标标签达成共识,但在上下文脱敏(47.7%)上未能达成一致。这种差异表明了上下文隐私的主观性,并推动了 R-Score 的产生,它将上下文歧义与严格精确度解耦。我们比较了来自不同系列的 35 个模型,并报告了它们在脱敏 PII 方面的性能。最后,我们发布了 RedactionBench,为未来的隐私保护系统建立基线,希望能激发高效的模型设计和标准化评估。
查看原文
查看缓存全文

缓存时间: 2026/06/18 05:46

# RedactionBench
来源:https://arxiv.org/abs/2606.18782
## 标题:RedactionBench

查看PDF (https://arxiv.org/pdf/2606.18782)

> 摘要:大型语言模型越来越多地应用于需要删除个人身份信息(PII)的敏感领域。虽然删除PII是一项数据清洗的前置工作,但现有基准混淆了抽取机制与隐私语义。公开的电话号码与医疗记录中的电话号码并不等同。信息是否构成侵权,在很大程度上取决于谁持有信息、为何持有以及持有信息的上下文,这从根本上区分了删除与简单的实体识别。基于上下文完整性原则,我们引入了RedactionBench,这是一个手动标注的基准,包含来自11个领域的200份多样化文档,大部分源自真实世界材料。我们还引入了R-Score,一种新颖的字符级指标,它将语义上相似的删除同等对待,并消除了浅层格式选择(如电话号码的不同掩码样式)的影响。对命名实体识别模型、实体抽取小语言模型以及配备智能体工具的前沿模型的评估表明,上下文删除仍然是一个未解决的问题。在RedactionBench上进行的、涉及80多名用户的人工评估揭示了隐私感知中的显著分歧。标注者对于强制删除的标签达成共识(89.4%)以及保留安全文本的共识(94.1%),但在上下文删除上无法达成一致(47.7%)。这种差异凸显了上下文隐私的主观性,并促使我们设计R-Score,它将上下文歧义与严格精确度解耦。我们比较了35个不同系列的模型,并报告了它们在删除PII方面的性能。最后,我们公开发布RedactionBench,为未来的隐私保护系统建立基准,希望激发高效的模型设计和标准化的评估。

## 提交历史

来自:Madhav Aggarwal \[查看电子邮件 (https://arxiv.org/show-email/7db8d863/2606.18782)\] **\[v1\]** 2026年6月17日 星期三 07:51:56 UTC (401 KB)

相似文章

RedBench:大型语言模型综合红队测试通用数据集

arXiv cs.CL

RedBench 引入了一个通用数据集,聚合了 37 个基准数据集,包含 29,362 个样本,涵盖 22 个风险类别和 19 个领域,用于实现大型语言模型的标准化和综合红队测试评估。该工作解决了现有红队测试数据集中的不一致问题,并提供了基准、评估代码和开源资源,用于评估 LLM 对对抗提示的鲁棒性。

SpeechEditBench:面向指令引导语音编辑的双语多属性基准

Hugging Face Daily Papers

SpeechEditBench是一个双语多属性基准,用于评估指令引导的语音编辑,涵盖七项原子任务和组合任务,并采用基于锚点的评估方案及三项指标。对主流语音大模型的评估表明,没有单一模型能在所有维度上表现出色,而组合编辑仍然极具挑战性。

AdversaBench: 自动化LLM红队测试的多裁判确认与跨模型迁移性

arXiv cs.AI

AdversaBench介绍了一个自动化LLM红队测试流程,该流程使用五个变异算子和一个由三位裁判及元裁判(用于决断平局)组成的评审团来确认失败,揭示了攻击难度因类别而异,并且对抗性提示可以从较小模型迁移到较大模型。

PaintBench: 精确视觉编辑的确定性评估

Hugging Face Daily Papers

PaintBench是一个新的基准,用于评估多模态模型中的精确视觉编辑,涵盖4个类别中的20种操作,采用确定性像素级评估。测试11个模型显示整体性能较低,最佳模型仅获得17.1%的mIoU。