PIIBench：个人可识别信息检测的统一多源基准语料库

arXiv cs.CL 2026/04/20 04:00 论文

pii-detection benchmark-dataset nlp privacy multi-source information-extraction

摘要

PIIBench 是一个用于检测多种数据源中个人可识别信息 (PII) 的统一基准语料库。该资源解决了 PII 检测任务中标准化评估的需求，这对隐私保护的自然语言处理应用至关重要。

arXiv:2604.15776v1 公告类型：新文章摘要：我们介绍 PIIBench，一个用于自然语言文本中个人可识别信息 (PII) 检测的统一基准语料库。现有的 PII 检测资源分散在具有互不兼容标注方案的领域特定语料库中，阻碍了检测系统的系统性比较。我们整合了十个公开可用的数据集，涵盖合成 PII 语料库、多语言命名实体识别 (NER) 基准和金融领域标注文本，产生了包含 2,369,883 个标注序列和 335 万个实体提及的语料库，涵盖 48 种规范化的 PII 实体类型。我们开发了一个原则性的归一化流程，将 80 多种源特定的标签变体映射到标准化的 BIO 标注方案，应用基于频率的近似缺失实体类型抑制，并生成保持源分布的分层 80/10/10 训练/验证/测试划分。为了建立基准难度，我们评估了八个已发布系统，包括基于规则的引擎 (Microsoft Presidio)、通用 NER 模型 (spaCy、BERT-base NER、XLM-RoBERTa NER、SpanMarker mBERT、SpanMarker BERT)、PII 专用模型 (Piiranha DeBERTa) 和金融 NER 专家 (XtremeDistil FiNER)。所有系统的跨度级 F1 分数均低于 0.14，最佳系统 (Presidio，F1=0.1385) 在大多数实体类型上的召回率仍为零。这些结果直接量化了域孤岛问题，表明 PIIBench 相比任何现有单一来源 PII 数据集都呈现出更具挑战性和更全面的评估基准。数据集构建流程和基准评估代码已在 https://github.com/pritesh-2711/pii-bench 公开发布。

查看原文

查看缓存全文

缓存时间: 2026/04/20 08:29

# PIIBench：用于个人身份信息检测的统一多源基准语料库
来源：https://arxiv.org/abs/2604.15776

## 文献和引用工具

文献浏览器切换

代码、数据、媒体

## 与本文相关的代码、数据和媒体

演示

## 演示

相关论文

## 推荐工具和搜索工具

关于 arXivLabs

## arXivLabs：与社区合作者进行的实验项目

arXivLabs 是一个框架，允许合作者直接在我们的网站上开发和共享新的 arXiv 功能。

与 arXivLabs 合作的个人和组织都认可并接受了我们开放、社区、卓越和用户数据隐私的价值观。arXiv 致力于这些价值观，仅与遵守这些价值观的合作伙伴合作。

有想法为 arXiv 社区增加价值的项目吗？**了解更多关于 arXivLabs 的信息**（https://info.arxiv.org/labs/index.html）。

PIIBench：个人可识别信息检测的统一多源基准语料库

相似文章

IndustryBench-MIPU：面向工业产品多图像属性值提取的基准

MMed-Bench-IR：一个用于多语言医学信息检索的异构基准

基于波你尼语法的印度语言处理基础

UsefulBench：以决策有用信息为目标的信息检索

Meddies PII：用于临床文本的开源多语言去标识化模型

提交意见反馈