介绍 OpenAI Privacy Filter

OpenAI Blog 模型

摘要

OpenAI 发布了 Privacy Filter,这是一个开放权重模型,旨在高效且具有上下文感知地检测和编辑文本中的个人身份信息(PII)。

OpenAI Privacy Filter 是一个开放权重模型,用于以最先进的准确率检测和编辑文本中的个人身份信息(PII)。
查看原文
查看缓存全文

缓存时间: 2026/05/08 09:47

# 介绍 OpenAI 隐私过滤器 来源:https://openai.com/index/introducing-openai-privacy-filter/ 今天,我们发布 OpenAI 隐私过滤器(Privacy Filter),这是一个开放权重的模型,用于检测和遮盖文本中的个人身份信息(PII)。此次发布是我们更广泛努力的一部分,旨在通过为开发者提供实用的基础设施,使其能够安全地使用 AI 构建应用,从而支持更具韧性的软件生态系统。这包括工具 (https://openai.com/index/codex-security-now-in-research-preview/) 和模型 (https://openai.com/index/scaling-trusted-access-for-cyber-defense/),它们从一开始就让强大的隐私和安全保护更易于实施。 隐私过滤器是一个小模型,却拥有前沿的个人数据检测能力。它专为高吞吐量的隐私工作流而设计,能够对非结构化文本中的 PII 进行上下文感知的检测。它可以本地运行,这意味着 PII 可以在不出设备的情况下被遮盖或删除。它能高效处理长输入,通过一次快速传递完成遮盖决策。 在 OpenAI,我们在自己的隐私保护工作流中使用隐私过滤器的微调版本。我们开发隐私过滤器,是因为我们相信借助最新的 AI 能力,可以超越市场上已有的隐私标准。我们今天发布的隐私过滤器版本,在 PII-Masking-300k 基准测试上达到了最先进的性能,此处已对我们在评估过程中发现的数据标注问题进行了修正。 通过此次发布,开发者可以在自己的环境中运行隐私过滤器,针对自身用例进行微调,并在训练、索引、日志记录和审查流程中构建更强的隐私保护。 ## 一个小模型,拥有前沿的个人数据检测能力 现代 AI 系统中的隐私保护依赖的不仅仅是模式匹配。传统的 PII 检测工具通常依赖固定的规则来识别电话号码和电子邮件地址等格式。它们在狭义场景下表现不错,但常常遗漏更微妙的个人信息,并且在上下文理解方面存在困难。 隐私过滤器通过更深入的语言理解和上下文感知来实现更精细的性能。它将强大的语言理解能力与隐私专用的标签系统相结合,能够检测非结构化文本中更广泛的 PII,包括那些依赖上下文才能做出正确判断的情况。它能更好地区分哪些信息应该保留(因为属于公开信息),哪些信息应该被遮盖或删除(因为涉及个人隐私)。 结果就是,一个足够强大、能提供前沿级隐私过滤性能的模型。同时,这个模型足够小,可以本地运行——这意味着尚未过滤的数据可以留在设备上,降低暴露风险,而无需发送到服务器进行去标识化处理。 ## 模型概述 隐私过滤器是一个双向 token 分类模型,带有跨度解码(span decoding)。它从一个自回归的预训练检查点出发,随后被适配为一个 token 分类器,针对固定的隐私标签分类体系进行操作。它不逐个 token 生成文本,而是通过一次前向传播对输入序列进行标记,然后通过约束维特比(Viterbi)过程解码出连贯的跨度。 这种架构为隐私过滤器在生产环境下提供了一些有用的特性: - **快速高效:**所有 token 在一次前向传播中完成标记。 - **上下文感知:**语言先验使得 PII 跨度能够基于周围上下文被检测出来。 - **长上下文:**发布的模型支持最多 128,000 个 token 的上下文。 - **可配置:**开发者可以调整运行点,在召回率和精确率之间权衡,以适应不同的工作流。 发布的模型总参数量为 1.5B,其中活跃参数为 50M。 隐私过滤器预测以下八个类别的跨度: - `private_person` - `private_address` - `private_email` - `private_phone` - `private_url` - `private_date` - `account_number` - `secret` `account_number` 类别有助于遮盖各种类型的账户号码,包括信用卡号、银行账号等金融信息;而 `secret` 则有助于遮盖密码和 API 密钥等内容。 这些标签使用 BIOES 跨度标签进行解码,有助于产生更干净、更连贯的遮盖边界。 ## 我们是怎样构建的 我们分几个阶段开发了隐私过滤器。 首先,我们构建了一个隐私分类体系,定义了模型应该检测的跨度类型。这包括个人标识符、联系方式、地址、私人日期、各种类型的账户号码(如信用卡和银行信息),以及秘密(如 API 密钥和密码)。 其次,我们将一个预训练语言模型转换为双向 token 分类器,方法是替换语言建模头为一个 token 分类头,并通过有监督的分类目标进行后训练。 第三,我们在公开可用数据和合成数据的混合集上进行了训练,这些数据旨在涵盖真实文本和困难的隐私模式。在公开数据中标注不完整的部分,我们使用模型辅助标注和审查来提高覆盖率。我们还生成了合成样本,以增加格式、上下文和隐私子类型的多样性。 在推理时,模型的 token 级预测通过约束序列解码被解码为连贯的跨度。这种方法保留了预训练模型广泛的语言理解能力,同时使其专精于隐私检测。 ## 隐私过滤器的性能表现 我们在标准基准测试以及额外的合成和聊天风格评估上评估了隐私过滤器,这些评估旨在测试更困难、更依赖上下文的案例。 在 PII-Masking-300k\(在新窗口中打开\) (https://huggingface.co/datasets/ai4privacy/pii-masking-300k) 基准测试上,隐私过滤器的 F1 得分为 96%(精确率 94.04%,召回率 98.04%)。在修正后的基准测试版本(考虑了我们在审查过程中发现的数据集标注问题)上,F1 得分为 97.43%(精确率 96.79%,召回率 98.08%)。 我们还发现,该模型可以高效地进行适配。即使只需少量数据微调,也能迅速提升领域特定任务的准确率,使 F1 分数从 54% 提高到 96%,并在我们评估的领域适配基准测试中接近饱和。 除了基准测试性能,隐私过滤器专为在嘈杂的真实世界文本中进行实用隐私过滤而设计。这包括长文档、歧义引用、混合格式字符串以及与软件相关的秘密。模型卡\(在新窗口中打开\) (https://cdn.openai.com/pdf/c66281ed-b638-456a-8ce1-97e9f5264a90/OpenAI-Privacy-Filter-Model-Card.pdf) 还报告了针对代码库中秘密检测的目标评估,以及对多语言、对抗性和上下文依赖示例的压力测试。 ## 局限性 隐私过滤器不是一个匿名化工具,也不是合规认证,更不是高风险场景下策略审查的替代品。它是更广泛的隐私设计系统中的一个组件。 其行为反映了它所训练的标签分类体系和决策边界。不同的组织可能需要不同的检测或遮盖策略,而这些策略可能需要领域内评估或进一步的微调。性能也可能因语言、文字系统、命名惯例和与训练分布不同的领域而有所差异。 与所有模型一样,隐私过滤器可能会犯错。它可能遗漏不常见的标识符或模棱两可的私人引用,并且在上下文有限的情况下(尤其是在短序列中)可能过度或不足地遮盖实体。在高度敏感的领域,如法律、医疗和金融工作流,人工审查以及特定领域的评估和微调仍然很重要。 ## 可用性 我们发布 OpenAI 隐私过滤器,是为了在整个生态系统中支持更强的隐私保护。 该模型今天已在 Apache 2.0 许可下,在 Hugging Face\(在新窗口中打开\) (https://huggingface.co/openai/privacy-filter) 和 Github\(在新窗口中打开\) (https://github.com/openai/privacy-filter) 上可用。它旨在用于实验、定制和商业部署,并可以针对不同的数据分布和隐私策略进行微调。 除了模型,我们还分享了文档,涵盖模型架构、标签分类体系、解码控制、预期用例、评估设置和已知局限性,以便团队了解模型擅长什么,以及在哪里应该谨慎使用。 ## 展望 AI 系统的隐私保护是一项持续的努力,涉及研究、产品设计、评估和部署。 隐私过滤器反映了我们认为重要的一种方向:小而高效的模型,在现实 AI 系统中重要的精确定义任务上具有前沿能力。我们发布它,是因为我们认为隐私保护基础设施应该更容易被检查、运行、适配和改进。 我们的目标是让模型学习世界,而不是学习个人。隐私过滤器有助于实现这一目标。 我们发布隐私过滤器的预览版,是为了接收来自研究和隐私社区的反馈,并进一步迭代模型性能。

相似文章

openai/privacy-filter

Hugging Face Models Trending

OpenAI 发布了 Privacy Filter,这是一个包含 15 亿参数的双向令牌分类模型,用于检测和处理个人身份信息(PII)。该模型采用 Apache 2.0 许可证,并支持长上下文,以实现高通量的数据清理。

OpenAI 隐私过滤模型

Reddit r/LocalLLaMA

OpenAI 悄悄在 Hugging Face 发布了一款 Apache-2.0 授权的隐私过滤模型,权重完全开放,旨在帮用户在本地运行隐私保护过滤器的同时,仍享受大实验室级别的质量。