PIIBench:个人可识别信息检测的统一多源基准语料库
摘要
PIIBench 是一个用于检测多种数据源中个人可识别信息 (PII) 的统一基准语料库。该资源解决了 PII 检测任务中标准化评估的需求,这对隐私保护的自然语言处理应用至关重要。
arXiv:2604.15776v1 公告类型:新文章
摘要:我们介绍 PIIBench,一个用于自然语言文本中个人可识别信息 (PII) 检测的统一基准语料库。现有的 PII 检测资源分散在具有互不兼容标注方案的领域特定语料库中,阻碍了检测系统的系统性比较。我们整合了十个公开可用的数据集,涵盖合成 PII 语料库、多语言命名实体识别 (NER) 基准和金融领域标注文本,产生了包含 2,369,883 个标注序列和 335 万个实体提及的语料库,涵盖 48 种规范化的 PII 实体类型。我们开发了一个原则性的归一化流程,将 80 多种源特定的标签变体映射到标准化的 BIO 标注方案,应用基于频率的近似缺失实体类型抑制,并生成保持源分布的分层 80/10/10 训练/验证/测试划分。为了建立基准难度,我们评估了八个已发布系统,包括基于规则的引擎 (Microsoft Presidio)、通用 NER 模型 (spaCy、BERT-base NER、XLM-RoBERTa NER、SpanMarker mBERT、SpanMarker BERT)、PII 专用模型 (Piiranha DeBERTa) 和金融 NER 专家 (XtremeDistil FiNER)。所有系统的跨度级 F1 分数均低于 0.14,最佳系统 (Presidio,F1=0.1385) 在大多数实体类型上的召回率仍为零。这些结果直接量化了域孤岛问题,表明 PIIBench 相比任何现有单一来源 PII 数据集都呈现出更具挑战性和更全面的评估基准。数据集构建流程和基准评估代码已在 https://github.com/pritesh-2711/pii-bench 公开发布。
查看缓存全文
缓存时间: 2026/04/20 08:29
# PIIBench:用于个人身份信息检测的统一多源基准语料库 来源:https://arxiv.org/abs/2604.15776 ## 文献和引用工具 文献浏览器切换 代码、数据、媒体 ## 与本文相关的代码、数据和媒体 演示 ## 演示 相关论文 ## 推荐工具和搜索工具 关于 arXivLabs ## arXivLabs:与社区合作者进行的实验项目 arXivLabs 是一个框架,允许合作者直接在我们的网站上开发和共享新的 arXiv 功能。 与 arXivLabs 合作的个人和组织都认可并接受了我们开放、社区、卓越和用户数据隐私的价值观。arXiv 致力于这些价值观,仅与遵守这些价值观的合作伙伴合作。 有想法为 arXiv 社区增加价值的项目吗?**了解更多关于 arXivLabs 的信息**(https://info.arxiv.org/labs/index.html)。
相似文章
IndustryBench-MIPU:面向工业产品多图像属性值提取的基准
IndustryBench-MIPU 是一个大规模的多图像工业产品理解基准,评估了9个MLLM,揭示了一个完整性差距:精度高但属性恢复率低。
MMed-Bench-IR:一个用于多语言医学信息检索的异构基准
MMed-Bench-IR是一个跨六种语言的多语言医学信息检索异构基准,评估跨语言对齐、概念区分和证据检索。它揭示了非英语查询的严重性能下降,凸显了现有仅英语评估的不足。
基于波你尼语法的印度语言处理基础
本文提出了一套基于波你尼语法的基准套件,旨在统一跨印度语言的处理,提高准确性、数据效率和可迁移性。
UsefulBench:以决策有用信息为目标的信息检索
UsefulBench 引入了一个领域特定的基准数据集,用于区分信息检索中的文档相关性和有用性,表明基于相似度的信息检索系统混淆了这两个概念,而大语言模型可以解决这个问题但缺乏领域专业知识。
Meddies PII:用于临床文本的开源多语言去标识化模型
Meddies PII 是一个用于临床文本去标识化的开源多语言模型及数据集,旨在移除患者标识符的同时保留临床事实。它利用动态提示生成的合成数据,以处理多样化的真实世界格式。