新本地模型在PII移除上达到接近前沿性能,仅需9毫秒CPU推理
摘要
介绍了ScreenLeak基准,用于衡量计算机使用AI数据中的PII编辑,并提出了两个本地模型(用于文本的v45_phase3和用于图像的rfdetr_v8),在低延迟下实现了接近前沿的性能。
大家好,我一直在研究这个模型,用于从计算机使用数据中剥离敏感信息,希望能得到一些反馈!
查看缓存全文
缓存时间: 2026/05/26 00:25
# ScreenLeak:计算机使用型AI的编辑瓶颈
来源:https://screenpipe.github.io/screenleak/
*路易·博蒙特 · 2026\-05\-11 (修订于 2026\-05\-25) · 代码 + 数据:github.com/screenpipe/screenleak (https://github.com/screenpipe/screenleak)*
下一代AI代理——Anthropic的Computer Use、OpenAI的Operator、Google的Project Mariner——需要计算机使用数据才能变得更好。截图、无障碍树、OCR片段、多步骤追踪。
这些数据无处不在。但几乎没有任何数据可以被移动、共享、记录或微调——每一帧都充斥着姓名、电子邮件、客户ID、内部主机名、API密钥、频道名称。**PII是整个计算机使用研究管线的瓶颈。**
能力问题——*代理能否预订航班、填写表格?*——有WebArena、OSWorld、GAIA、ScreenSpot等基准。而编辑问题——*当今的工具能否剥离PII使数据可共享?*——没有基准。**ScreenLeak填补了这一缺失的度量。** 三个表面、十二个系统、一个分类体系。
## 总体——合规综合覆盖率
每个适配器在其运行的每个表面上的得分。综合 = 三个表面的几何平均值——最薄弱环节的合规态势。
| 框架 | 文本 (`v45\_phase3`) | 图像 (`rfdetr`) | 追踪 (`gpt5`) | **综合** |
|------|----------------------|-------------------|------------------|----------|
| HIPAA | 91.8% | 95.8% | 76.0% | **87.9%** |
| GDPR | 90.2% | 95.2% | 68.0% | 84.5% |
| CCPA | 90.2% | 95.2% | 68.0% | 84.5% |
| SOC 2 | 88.0% | 95.7% | 68.0% | 83.9% |
| PCI DSS | 88.7% | 96.8% | 78.3% | **87.9%** |
| DPDPA | 91.6% | 95.8% | 72.0% | 86.5% |
使用相同的标签-子集字典 (`scoring/frameworks.py` (https://github.com/screenpipe/screenleak/blob/main/scoring/frameworks.py)),应用于所有三个子基准。数字是私有验证集上的零泄漏率(422个文本 · 221个图像 · 25个追踪)。完整细分:`results/framework\_coverage.md` (https://github.com/screenpipe/screenleak/blob/main/results/framework_coverage.md)。
## 各表面——三个不同问题,三种不同轮廓
### 1. 它们能很好地检测PII。一个278 MB的本地模型也能做到。
n=422条桌面遥测字符串(窗口标题、AX节点、OCR片段),人工标注,**13个类别**(第13个`private\_sensitive`涵盖GDPR第9条/非安全港PHI)。95%自助法置信区间在方括号内:
| 模型 | 零泄漏率 | 宏F1 |
|------|-----------|---------|
| **Gemini 3.1 Pro** | **91.0%** [88.1 – 93.9%] | 0.847 |
| GPT-5.5 | 90.7% [87.8 – 93.6%] | 0.847 |
| Claude Opus 4.7 | 87.8% [84.1 – 91.0%] | 0.809 |
| **`v45\_phase3`** ⭐ 本地 | **86.7%** 框架平均 | 0.78 |
| `privacy\_filter\_ft\_v6` (1.4 B) | 80.9% [76.5 – 84.9%] | 0.724 |
| Google Cloud DLP | **37.7%** | 0.236 |
| Microsoft Presidio | 35.4% | 0.199 |
| Regex基线 | 33.9% | 0.565 |
**`v45\_phase3`** 是一个278 MB的INT8 ONNX模型(基于xlm-roberta-base微调),CPU上p50延迟9毫秒,可离线运行——与前沿API相差不到5个百分点,且每次调用成本为零。两款旗舰商业PII产品(Cloud DLP、Presidio)仅略高于正则表达式——它们是为文档设计的,而非屏幕遥测。
### 2. 它们无法在像素中定位PII。专门的检测器可以。
n=190张包含PII的真实形状应用截图。IoU ≥ 0.30。95% Wilson置信区间在方括号内:
| 模型 | 零泄漏率 | 过度混乱 |
|------|-----------|-----------|
| **`rfdetr\_v8`** (本地, 28 M) | **95.3%** [91.2 – 97.5%] | 0.0% |
| Gemini 3.1 Pro | 4.2% [2.1 – 8.1%] | 9.7% |
| GPT-5.5 | 3.2% [1.5 – 6.7%] | 22.6% |
| Google Cloud DLP | 2.6% [1.1 – 6.0%] | 19.4% |
| Tesseract OCR + 16个正则表达式 | 2.6% [1.1 – 6.0%] | 3.2% |
| Claude Opus 4.7 | 2.1% [0.8 – 5.3%] | 35.5% |
| Microsoft Presidio | 0.5% [0.1 – 2.9%] | 48.4% |
所有前沿视觉模型得分均低于5%;Claude / GPT-5.5 / GCP DLP / `regex\_ocr`的置信区间重叠——在此样本量下统计上不可区分。一个2800万参数的RF-DETR(DINOv2-S + LWDETR头部,108 MB ONNX,Apple Silicon CoreML上p50约66毫秒)实现了决定性分离。前沿视觉可以*命名*其看到的内容——但它无法画出足够紧凑的边界框以达到IoU 0.30的计数标准。
**一个重要注意事项**:验证集划分与模型的训练数据同分布(图像不重叠,没有泄露的PNG,但来源相同)。95.3%是在匹配条件下的上界,并非真实屏幕性能的声明。
### 3. 它们能检测,但不会拒绝泄露。
n=25个多轮计算机使用追踪记录,其中PII被注入到代理观察到的屏幕内容中。代理是否泄露了它刚刚观察到的PII?
| 模型 | 无泄漏率 | 平均泄漏/追踪 |
|------|-----------|----------------|
| **GPT-5.5** | **64.0%** [44.0 – 80.0%] | 0.64 |
| Claude Opus 4.7 | 36.0% [16.0 – 56.0%] | 1.12 |
| Gemini 3.1 Pro Preview | 20.0% [4.0 – 36.0%] | 1.28 |
**每个在文本PII检测上准确率超过87%的前沿模型,在要求总结屏幕内容时,有36-80%的时间未能拒绝泄露。** 按类别:`private\_company`在所有三个模型中的泄漏率为50-100%;姓名为50-83%;仓库引用为43-100%。干净的类别(URL、秘密形状字符串)之所以干净,是因为每个前沿模型都经过严格训练以拒绝`sk-...` / `Bearer ...`模式。而人名、客户名称、项目频道则直接流出。
## 模式
三个不同问题,三种不同失败轮廓:
1. **文本PII检测** 是一个识别问题。前沿模型是优秀的识别器——它们比公共PII编辑工具高出7-50个百分点。一个278 MB的本地微调模型以低1000倍的延迟缩小了差距。
2. **图像PII定位** 是一个接地问题。前沿模型可以*命名*它们看到的内容;但无法画出紧凑的边界框。一个小的专用检测器(RF-DETR,2800万参数)实现了95%+的准确率。
3. **追踪PII拒绝** 是一个行为问题。同一个在文本检测上达到91%准确率的模型,在任务中观察到PII时,有80%的时间会泄漏PII。
**能力不是倾向。识别不是拒绝。** 这就是差距。
Anthropic、OpenAI和Google发布的安全文档都将屏幕上泄露列为未解决的问题。我们测量了这一差距。数据:github.com/screenpipe/screenleak (https://github.com/screenpipe/screenleak)。
## 方法论概述
- **仅合成数据。** 没有真实PII,没有真实用户。所有姓名/电子邮件/电话号码/ID/秘密均为虚构。使用现有的规范占位符(例如SSN `123-45-6789`)。
- **图像基准上的像素精确黄金标准。** 完全符合IoU ≥ 0.30的匹配阈值。
- **严格的黄金标准完整性——每个黄金标准项在注入时按原样出现。CI强制执行。**
- **置信区间。** 文本和追踪使用95%自助法,图像使用95% Wilson。追踪n=25,图像n=190,文本n=345——追踪的置信区间较宽;排名是方向性的,并非决定性。
- **共享框架字典。** `scoring/frameworks.py` (https://github.com/screenpipe/screenleak/blob/main/scoring/frameworks.py) 是所有三个子基准中HIPAA / GDPR / CCPA / SOC 2 / PCI DSS / DPDPA的唯一事实来源。
完整方法论、威胁模型、局限性和按类别细分都在仓库中。
## 常见问题——细心读者首先会问的问题
**“我怎么知道你没有在验证集上训练?”** 训练/验证集划分是独占的,并在CI中验证。`rfdetr`的95.3%是**分布内召回率**(保留图像,相同来源),明确作为上界,并非真实屏幕性能声明。参见`LIMITATIONS.md`。
**“你是否挑选了前沿模型的版本?”** 没有:我们对每个实验室的最新生产模型进行了基准测试(`claude-opus-4-7`、`gpt-5.5`、`gemini-3.1-pro-preview`)。环境变量允许你针对任何其他版本重新运行。
**“为什么允许RF-DETR在基准分布上训练?”** 因为那是*可部署的解决方案*。基准提问“当今工具能否从屏幕遥测中编辑PII?”——一个小型的分布内检测器是合法的答案。与前沿视觉之间的90个百分点的差距是至关重要的;绝对95.3%受限于分布内状态。前沿模型 / GCP DLP / Presidio *没有*在此分布上训练——它们是真正的零样本基线。
**“为什么有三个子基准?”** 因为故障模式不同。一个模型可以在文本PII上达到91%的准确率,但在80%的追踪中泄露。单一基准框架会忽略这一差距。
**“实验室/红队如何获取完整语料库?”** 发送邮件至`[email protected]`,并附上一段用例说明。签署访问协议:(a) 语料库仅用于评估,不用于训练;(b) 你分享任何已发表的结果,以确保排行榜保持诚实。无需费用。
## 这不代表什么
- **不是能力基准。** 一个拒绝做任何事情的模型会得到100%无泄漏的分数,但毫无用处。请使用WebArena / OSWorld / GAIA来评估能力。
- **不是厂商推销。** 评分代码和示例语料库采用Apache 2.0 / CC-BY 4.0许可。完整验证集保存在私有伴侣仓库中,以防止未来评估的污染,并非用于盈利。
- **并非详尽无遗。** v0版本包含25个追踪验证案例、422个文本案例、221个图像验证案例。数字是方向性的。v0.1版本将包含:对抗性提示注入划分、更大的追踪语料库、图像基准类别覆盖、多语言、更多适配器。
## 自行运行
```
git clone https://github.com/screenpipe/screenleak
cd screenleak && make install
export ANTHROPIC_API_KEY=... OPENAI_API_KEY=... GOOGLE_API_KEY=...
make bench-text ADAPTER=claude # 或: gpt5, gemini, v45_phase3, gcp_dlp, regex, ...
make bench-image ADAPTER=rfdetr # 或: claude, gpt5, gemini, regex_ocr, ...
make bench-trace ADAPTER=claude # 或: gpt5, gemini
# 按合规框架细分
python text/src/framework_coverage.py --adapter v45_phase3 gcp_dlp regex
python image/src/framework_coverage.py --adapter rfdetr
```
适配器的形状在`CONTRIBUTING.md` (https://github.com/screenpipe/screenleak/blob/main/CONTRIBUTING.md)中进行了说明。欢迎添加新模型的PR。
## 引用
```
@misc{screenleak2026,
title = {ScreenLeak: A Multi-Modal Benchmark for PII Redaction in Computer-Use AI},
author = {Beaumont, Louis},
year = {2026},
howpublished = {\url{https://github.com/screenpipe/screenleak}},
}
```
---
*路易·博蒙特 (Screenpipe) — `[email protected]`*
相似文章
本地模型优化(3 分钟阅读)
本文分析了在 MacBook Pro 上本地运行 AI 推理的可行性,对比了本地 Qwen 35B 模型与云端 Claude Opus 4.5。结论是,对于常规任务,本地模型速度快 2 倍,尽管在能力上略有差距,但仍是日常工作量中一半任务的实用选择。
本地模型是否比预期更快变得“足够好”?
这篇文章讨论了本地AI模型在日常任务中日益增长的可行性,暗示了向混合架构的转变,这种架构优化成本和延迟,而不是仅仅依赖前沿的云模型。
介绍 OpenAI Privacy Filter
OpenAI 发布了 Privacy Filter,这是一个开放权重模型,旨在高效且具有上下文感知地检测和编辑文本中的个人身份信息(PII)。
最强本地AI图像生成器来了!
Ernie Image,全新开源扩散模型,文字渲染与提示词忠实度全面超越Zage,可在ComfyUI本地运行,仅需约20 GB显存。
@Saboo_Shubham_:开源 AI 势头强劲。DeepSeek v4 Flash 是一款准前沿模型,拥有高达 100 万的上下文窗口。它可本地…
文章重点介绍了 DeepSeek v4 Flash,这是一款拥有 100 万上下文窗口的准前沿开源模型,并指出其能够通过 2 比特量化在 128GB 内存的 Mac 上本地运行。