PIIBench:个人可识别信息检测的统一多源基准语料库

arXiv cs.CL 论文

摘要

PIIBench 是一个用于检测多种数据源中个人可识别信息 (PII) 的统一基准语料库。该资源解决了 PII 检测任务中标准化评估的需求,这对隐私保护的自然语言处理应用至关重要。

arXiv:2604.15776v1 公告类型:新文章 摘要:我们介绍 PIIBench,一个用于自然语言文本中个人可识别信息 (PII) 检测的统一基准语料库。现有的 PII 检测资源分散在具有互不兼容标注方案的领域特定语料库中,阻碍了检测系统的系统性比较。我们整合了十个公开可用的数据集,涵盖合成 PII 语料库、多语言命名实体识别 (NER) 基准和金融领域标注文本,产生了包含 2,369,883 个标注序列和 335 万个实体提及的语料库,涵盖 48 种规范化的 PII 实体类型。我们开发了一个原则性的归一化流程,将 80 多种源特定的标签变体映射到标准化的 BIO 标注方案,应用基于频率的近似缺失实体类型抑制,并生成保持源分布的分层 80/10/10 训练/验证/测试划分。为了建立基准难度,我们评估了八个已发布系统,包括基于规则的引擎 (Microsoft Presidio)、通用 NER 模型 (spaCy、BERT-base NER、XLM-RoBERTa NER、SpanMarker mBERT、SpanMarker BERT)、PII 专用模型 (Piiranha DeBERTa) 和金融 NER 专家 (XtremeDistil FiNER)。所有系统的跨度级 F1 分数均低于 0.14,最佳系统 (Presidio,F1=0.1385) 在大多数实体类型上的召回率仍为零。这些结果直接量化了域孤岛问题,表明 PIIBench 相比任何现有单一来源 PII 数据集都呈现出更具挑战性和更全面的评估基准。数据集构建流程和基准评估代码已在 https://github.com/pritesh-2711/pii-bench 公开发布。
查看原文
查看缓存全文

缓存时间: 2026/04/20 08:29

# PIIBench:用于个人身份信息检测的统一多源基准语料库
来源:https://arxiv.org/abs/2604.15776

## 文献和引用工具

文献浏览器切换

代码、数据、媒体

## 与本文相关的代码、数据和媒体

演示

## 演示

相关论文

## 推荐工具和搜索工具

关于 arXivLabs

## arXivLabs:与社区合作者进行的实验项目

arXivLabs 是一个框架,允许合作者直接在我们的网站上开发和共享新的 arXiv 功能。

与 arXivLabs 合作的个人和组织都认可并接受了我们开放、社区、卓越和用户数据隐私的价值观。arXiv 致力于这些价值观,仅与遵守这些价值观的合作伙伴合作。

有想法为 arXiv 社区增加价值的项目吗?**了解更多关于 arXivLabs 的信息**(https://info.arxiv.org/labs/index.html)。

相似文章

UsefulBench:以决策有用信息为目标的信息检索

arXiv cs.CL

UsefulBench 引入了一个领域特定的基准数据集,用于区分信息检索中的文档相关性和有用性,表明基于相似度的信息检索系统混淆了这两个概念,而大语言模型可以解决这个问题但缺乏领域专业知识。