新本地模型在PII移除上达到接近前沿性能，仅需9毫秒CPU推理

Reddit r/LocalLLaMA 2026/05/26 00:16 论文

pii-removal computer-use-ai local-model benchmark redaction ai-safety open-source

摘要

介绍了ScreenLeak基准，用于衡量计算机使用AI数据中的PII编辑，并提出了两个本地模型（用于文本的v45_phase3和用于图像的rfdetr_v8），在低延迟下实现了接近前沿的性能。

大家好，我一直在研究这个模型，用于从计算机使用数据中剥离敏感信息，希望能得到一些反馈！

查看原文

查看缓存全文

缓存时间: 2026/05/26 00:25

# ScreenLeak：计算机使用型AI的编辑瓶颈来源：https://screenpipe.github.io/screenleak/ *路易·博蒙特 · 2026\-05\-11 (修订于 2026\-05\-25) · 代码 + 数据：github.com/screenpipe/screenleak (https://github.com/screenpipe/screenleak)* 下一代AI代理——Anthropic的Computer Use、OpenAI的Operator、Google的Project Mariner——需要计算机使用数据才能变得更好。截图、无障碍树、OCR片段、多步骤追踪。这些数据无处不在。但几乎没有任何数据可以被移动、共享、记录或微调——每一帧都充斥着姓名、电子邮件、客户ID、内部主机名、API密钥、频道名称。**PII是整个计算机使用研究管线的瓶颈。** 能力问题——*代理能否预订航班、填写表格？*——有WebArena、OSWorld、GAIA、ScreenSpot等基准。而编辑问题——*当今的工具能否剥离PII使数据可共享？*——没有基准。**ScreenLeak填补了这一缺失的度量。** 三个表面、十二个系统、一个分类体系。 ## 总体——合规综合覆盖率每个适配器在其运行的每个表面上的得分。综合 = 三个表面的几何平均值——最薄弱环节的合规态势。 | 框架 | 文本 (`v45\_phase3`) | 图像 (`rfdetr`) | 追踪 (`gpt5`) | **综合** | |------|----------------------|-------------------|------------------|----------| | HIPAA | 91.8% | 95.8% | 76.0% | **87.9%** | | GDPR | 90.2% | 95.2% | 68.0% | 84.5% | | CCPA | 90.2% | 95.2% | 68.0% | 84.5% | | SOC 2 | 88.0% | 95.7% | 68.0% | 83.9% | | PCI DSS | 88.7% | 96.8% | 78.3% | **87.9%** | | DPDPA | 91.6% | 95.8% | 72.0% | 86.5% | 使用相同的标签-子集字典 (`scoring/frameworks.py` (https://github.com/screenpipe/screenleak/blob/main/scoring/frameworks.py))，应用于所有三个子基准。数字是私有验证集上的零泄漏率（422个文本 · 221个图像 · 25个追踪）。完整细分：`results/framework\_coverage.md` (https://github.com/screenpipe/screenleak/blob/main/results/framework_coverage.md)。 ## 各表面——三个不同问题，三种不同轮廓 ### 1. 它们能很好地检测PII。一个278 MB的本地模型也能做到。 n=422条桌面遥测字符串（窗口标题、AX节点、OCR片段），人工标注，**13个类别**（第13个`private\_sensitive`涵盖GDPR第9条/非安全港PHI）。95%自助法置信区间在方括号内： | 模型 | 零泄漏率 | 宏F1 | |------|-----------|---------| | **Gemini 3.1 Pro** | **91.0%** [88.1 – 93.9%] | 0.847 | | GPT-5.5 | 90.7% [87.8 – 93.6%] | 0.847 | | Claude Opus 4.7 | 87.8% [84.1 – 91.0%] | 0.809 | | **`v45\_phase3`** ⭐ 本地 | **86.7%** 框架平均 | 0.78 | | `privacy\_filter\_ft\_v6` (1.4 B) | 80.9% [76.5 – 84.9%] | 0.724 | | Google Cloud DLP | **37.7%** | 0.236 | | Microsoft Presidio | 35.4% | 0.199 | | Regex基线 | 33.9% | 0.565 | **`v45\_phase3`** 是一个278 MB的INT8 ONNX模型（基于xlm-roberta-base微调），CPU上p50延迟9毫秒，可离线运行——与前沿API相差不到5个百分点，且每次调用成本为零。两款旗舰商业PII产品（Cloud DLP、Presidio）仅略高于正则表达式——它们是为文档设计的，而非屏幕遥测。 ### 2. 它们无法在像素中定位PII。专门的检测器可以。 n=190张包含PII的真实形状应用截图。IoU ≥ 0.30。95% Wilson置信区间在方括号内： | 模型 | 零泄漏率 | 过度混乱 | |------|-----------|-----------| | **`rfdetr\_v8`** (本地, 28 M) | **95.3%** [91.2 – 97.5%] | 0.0% | | Gemini 3.1 Pro | 4.2% [2.1 – 8.1%] | 9.7% | | GPT-5.5 | 3.2% [1.5 – 6.7%] | 22.6% | | Google Cloud DLP | 2.6% [1.1 – 6.0%] | 19.4% | | Tesseract OCR + 16个正则表达式 | 2.6% [1.1 – 6.0%] | 3.2% | | Claude Opus 4.7 | 2.1% [0.8 – 5.3%] | 35.5% | | Microsoft Presidio | 0.5% [0.1 – 2.9%] | 48.4% | 所有前沿视觉模型得分均低于5%；Claude / GPT-5.5 / GCP DLP / `regex\_ocr`的置信区间重叠——在此样本量下统计上不可区分。一个2800万参数的RF-DETR（DINOv2-S + LWDETR头部，108 MB ONNX，Apple Silicon CoreML上p50约66毫秒）实现了决定性分离。前沿视觉可以*命名*其看到的内容——但它无法画出足够紧凑的边界框以达到IoU 0.30的计数标准。 **一个重要注意事项**：验证集划分与模型的训练数据同分布（图像不重叠，没有泄露的PNG，但来源相同）。95.3%是在匹配条件下的上界，并非真实屏幕性能的声明。 ### 3. 它们能检测，但不会拒绝泄露。 n=25个多轮计算机使用追踪记录，其中PII被注入到代理观察到的屏幕内容中。代理是否泄露了它刚刚观察到的PII？ | 模型 | 无泄漏率 | 平均泄漏/追踪 | |------|-----------|----------------| | **GPT-5.5** | **64.0%** [44.0 – 80.0%] | 0.64 | | Claude Opus 4.7 | 36.0% [16.0 – 56.0%] | 1.12 | | Gemini 3.1 Pro Preview | 20.0% [4.0 – 36.0%] | 1.28 | **每个在文本PII检测上准确率超过87%的前沿模型，在要求总结屏幕内容时，有36-80%的时间未能拒绝泄露。** 按类别：`private\_company`在所有三个模型中的泄漏率为50-100%；姓名为50-83%；仓库引用为43-100%。干净的类别（URL、秘密形状字符串）之所以干净，是因为每个前沿模型都经过严格训练以拒绝`sk-...` / `Bearer ...`模式。而人名、客户名称、项目频道则直接流出。 ## 模式三个不同问题，三种不同失败轮廓： 1. **文本PII检测** 是一个识别问题。前沿模型是优秀的识别器——它们比公共PII编辑工具高出7-50个百分点。一个278 MB的本地微调模型以低1000倍的延迟缩小了差距。 2. **图像PII定位** 是一个接地问题。前沿模型可以*命名*它们看到的内容；但无法画出紧凑的边界框。一个小的专用检测器（RF-DETR，2800万参数）实现了95%+的准确率。 3. **追踪PII拒绝** 是一个行为问题。同一个在文本检测上达到91%准确率的模型，在任务中观察到PII时，有80%的时间会泄漏PII。 **能力不是倾向。识别不是拒绝。** 这就是差距。 Anthropic、OpenAI和Google发布的安全文档都将屏幕上泄露列为未解决的问题。我们测量了这一差距。数据：github.com/screenpipe/screenleak (https://github.com/screenpipe/screenleak)。 ## 方法论概述 - **仅合成数据。** 没有真实PII，没有真实用户。所有姓名/电子邮件/电话号码/ID/秘密均为虚构。使用现有的规范占位符（例如SSN `123-45-6789`）。 - **图像基准上的像素精确黄金标准。** 完全符合IoU ≥ 0.30的匹配阈值。 - **严格的黄金标准完整性——每个黄金标准项在注入时按原样出现。CI强制执行。** - **置信区间。** 文本和追踪使用95%自助法，图像使用95% Wilson。追踪n=25，图像n=190，文本n=345——追踪的置信区间较宽；排名是方向性的，并非决定性。 - **共享框架字典。** `scoring/frameworks.py` (https://github.com/screenpipe/screenleak/blob/main/scoring/frameworks.py) 是所有三个子基准中HIPAA / GDPR / CCPA / SOC 2 / PCI DSS / DPDPA的唯一事实来源。完整方法论、威胁模型、局限性和按类别细分都在仓库中。 ## 常见问题——细心读者首先会问的问题 **“我怎么知道你没有在验证集上训练？”** 训练/验证集划分是独占的，并在CI中验证。`rfdetr`的95.3%是**分布内召回率**（保留图像，相同来源），明确作为上界，并非真实屏幕性能声明。参见`LIMITATIONS.md`。 **“你是否挑选了前沿模型的版本？”** 没有：我们对每个实验室的最新生产模型进行了基准测试（`claude-opus-4-7`、`gpt-5.5`、`gemini-3.1-pro-preview`）。环境变量允许你针对任何其他版本重新运行。 **“为什么允许RF-DETR在基准分布上训练？”** 因为那是*可部署的解决方案*。基准提问“当今工具能否从屏幕遥测中编辑PII？”——一个小型的分布内检测器是合法的答案。与前沿视觉之间的90个百分点的差距是至关重要的；绝对95.3%受限于分布内状态。前沿模型 / GCP DLP / Presidio *没有*在此分布上训练——它们是真正的零样本基线。 **“为什么有三个子基准？”** 因为故障模式不同。一个模型可以在文本PII上达到91%的准确率，但在80%的追踪中泄露。单一基准框架会忽略这一差距。 **“实验室/红队如何获取完整语料库？”** 发送邮件至`[email protected]`，并附上一段用例说明。签署访问协议：(a) 语料库仅用于评估，不用于训练；(b) 你分享任何已发表的结果，以确保排行榜保持诚实。无需费用。 ## 这不代表什么 - **不是能力基准。** 一个拒绝做任何事情的模型会得到100%无泄漏的分数，但毫无用处。请使用WebArena / OSWorld / GAIA来评估能力。 - **不是厂商推销。** 评分代码和示例语料库采用Apache 2.0 / CC-BY 4.0许可。完整验证集保存在私有伴侣仓库中，以防止未来评估的污染，并非用于盈利。 - **并非详尽无遗。** v0版本包含25个追踪验证案例、422个文本案例、221个图像验证案例。数字是方向性的。v0.1版本将包含：对抗性提示注入划分、更大的追踪语料库、图像基准类别覆盖、多语言、更多适配器。 ## 自行运行 ``` git clone https://github.com/screenpipe/screenleak cd screenleak && make install export ANTHROPIC_API_KEY=... OPENAI_API_KEY=... GOOGLE_API_KEY=... make bench-text ADAPTER=claude # 或: gpt5, gemini, v45_phase3, gcp_dlp, regex, ... make bench-image ADAPTER=rfdetr # 或: claude, gpt5, gemini, regex_ocr, ... make bench-trace ADAPTER=claude # 或: gpt5, gemini # 按合规框架细分 python text/src/framework_coverage.py --adapter v45_phase3 gcp_dlp regex python image/src/framework_coverage.py --adapter rfdetr ``` 适配器的形状在`CONTRIBUTING.md` (https://github.com/screenpipe/screenleak/blob/main/CONTRIBUTING.md)中进行了说明。欢迎添加新模型的PR。 ## 引用 ``` @misc{screenleak2026, title = {ScreenLeak: A Multi-Modal Benchmark for PII Redaction in Computer-Use AI}, author = {Beaumont, Louis}, year = {2026}, howpublished = {\url{https://github.com/screenpipe/screenleak}}, } ``` --- *路易·博蒙特 (Screenpipe) — `[email protected]`*

新本地模型在PII移除上达到接近前沿性能，仅需9毫秒CPU推理

相似文章

2026年中本地模型

本地模型优化（3 分钟阅读）

最佳本地视觉模型——第二次基准测试更新——2026年6月21日

@Dinosn: 我尝试了一个本地AI模型（Qwen 3.6 27b）进行安全研究，效果出奇地好。

本地模型是否比预期更快变得“足够好”？

提交意见反馈