Minim:通过可信本地清理实现代理的隐私感知最小化视图
摘要
本文介绍了 Minim,一个可信的本地代理,它通过上下文完整性来平衡任务必要性和敏感度得分,为基于LLM的代理执行UI观察的隐私感知最小化。在WebArena上的实验表明,它在保留任务关键信息的同时,减少了不相关的敏感信息泄露。
arXiv:2606.13949v1 Announce Type: new
摘要:现代基于LLM的自主代理越来越依赖丰富的用户界面(UI)状态观察,以在复杂的数字环境中实现可靠的动作基础。然而,许多部署将完整的UI状态传输到远程推理服务器,即使大多数元素与当前任务无关,这可能会泄露敏感但不必要的上下文,例如身份验证码、私人通知和后台应用程序状态。我们提出MINIM,一个可信的本地代理,它在任何观察离开设备之前,在客户端执行隐私感知的最小化。基于情境完整性(CI),MINIM通过预测每个UI元素的固有敏感度得分(s)和任务条件必要性得分(n)来学习双分数表示。这些分数驱动一个三元披露策略,该策略保留关键元素,在需要时抽象敏感属性,并移除与任务无关的内容。我们优化了一个感知CI的目标函数,该函数对高风险内容上的必要性错误施加更严厉的惩罚,从而在保留任务关键信息的同时实现积极的剪枝。在从WebArena衍生的真实UI观察上的实验表明,MINIM显著减少了与任务无关的敏感信息泄露,同时保留了任务关键的语义上下文和可靠代理操作所需的交互可供性。
查看缓存全文
缓存时间: 2026/06/15 09:10
# 基于可信本地清理的隐私感知智能体最小化视图
## 摘要
现代基于LLM的自主智能体越来越依赖丰富的用户界面(UI)状态观察,以在复杂数字环境中实现可靠的行为接地。然而,许多部署会将完整的UI状态传输到远程推理服务器,即使大多数元素与当前任务无关,这可能会泄露敏感但不必要的上下文,例如身份验证码、私人通知和后台应用状态。我们提出**Minim**,一个可信的本地代理,它在任何观察离开设备之前在客户端执行隐私感知的最小化。基于情境完整性(CI),Minim通过学习每个UI元素的双分数表示,预测内在敏感性分数(ss)和任务条件必要性分数(nn)。这些分数驱动三元披露策略:保留必要元素,必要时抽象化敏感属性,并移除与任务无关的内容。我们优化了一个CI感知的目标函数,该函数对高风险内容的必要性错误给予更强的惩罚,从而在保留任务关键信息的同时实现积极的修剪。在源自WebArena的真实世界UI观察上的实验表明,Minim在显著减少与任务无关的敏感泄露的同时,保留了任务关键语义上下文和可靠智能体行为所需的交互功能。
**关键词:** 隐私,智能体AI,无障碍树,情境完整性,结构化观察,数据最小化
## 1 引言
现代智能体系统越来越多地通过**结构化观察**与数字世界交互,这些观察使用显式的语义结构而非原始感官流来表示界面状态。先前关于界面接地智能体的工作探索了基于像素的Web和GUI推理输入(He等,2024;Koh等,2024)以及诸如无障碍树或类DOM表示的结构化层次结构(Deng等,2023;Zhou等,2024)。一个突出的实例是**无障碍API**,它暴露了一个具有角色、状态和功能的UI元素层次结构,并因其相对于基于像素输入的稳定性(Nguyen等,2025)而被广泛用于操作系统级助手(例如,Apple Intelligence(Apple,2024)和Microsoft Copilot(Microsoft,2024b))。更广泛地说,结构化观察还以Web智能体中的DOM表示、机器人中的场景图以及工具使用模式的形式出现(例如,通过类型化模式标准化工具定义和调用的模型上下文协议(MCP)(Anthropic,2024))。
然而,这些接口最初是为辅助透明度而非隐私感知编排而设计的。因此,许多智能体部署采用优先共享的设计,将丰富的界面状态发送到远程推理,以简化集成和延迟工程。在我们的主要设置中,这意味着披露**整个**无障碍树,即使只有一小部分对用户任务是必需的。我们将这种失败模式称为**语义过度特权观察**,即结构化层次结构中与任务无关的元素连同其功能语义一起暴露。例如,在诸如"总结这封邮件"的例行请求期间,远程智能体可能会观察到共存的UI上下文,如侧边栏通知、后台应用程序窗口或不相关的浏览器标签。这可能会泄露个人身份信息和跨会话行为痕迹,这些信息与当前任务无关但对用户画像有用。这些风险已在自主智能体中量化,并在最近的攻击中得到证明(Zharmagambetov等,2025;Liu等,2025;Shao等,2024;Carlini等,2021;Green等,2025)。
保护**自主智能体**的结构化观察具有挑战性,因为应该披露哪些内容本质上是**任务条件性**的。同一个元素可能对完成一个任务是必需的(例如,需要用于身份验证的双因素认证码),但在另一个意图下(例如,浏览或总结)则构成纯粹的泄露。最近的工作进一步突出了一个"隐私判断-行动鸿沟"(Wang等,2025b),即智能体即使识别出上下文敏感也无法保护它。
现有的隐私范式难以应对这种设置。**任务无关的实体过滤**(例如,Presidio(Microsoft,2024a))依赖于静态PII类别,可能会移除任务关键的上下文或遗漏敏感的非PII属性(例如,政治偏好)(Kim等,2024;Garza等,2025)。**差分隐私(DP)**引入的随机扰动可能会扭曲结构化界面中可靠执行所需的精确语义线索(Zhang等,2025a;Abadi等,2016;Yu等,2021)。最后,**加密LLM方法**(Pang等,2024;Riasi等,2025;Xu等,2025;Rathee等,2020)(例如,多方计算(MPC)、全同态加密(FHE))保护计算,但无法阻止从披露给远程服务器的任何状态中进行敏感推断,而且它们通常会引入与实时智能体控制循环不相容的延迟。
与用户提示的对话式防护(Ngong等,2025;Zhou等,2025)不同,自主智能体有意义的隐私要求在将**结构化观察**披露给推理服务器之前对其进行最小化。为了解决这个问题,我们提出**Minim**,一个在客户端设备上强制实施披露前最小化的**可信本地代理**。Minim实现了一个学习到的结构瓶颈,在观察传输到远程推理服务器之前对其进行清理。与依赖智能体自身推理的基于提示的清理器不同,Minim使用专门的本地模型为结构化观察中的每个元素预测两个标量分数:(1)**敏感性**,捕捉内在信息风险,以及(2)**任务条件必要性**,捕捉对当前意图的效用。这些分数驱动基于**情境完整性(CI)**(Nissenbaum,2004)的披露策略,限制高敏感性内容的披露,除非预测该内容对完成用户任务是必要的。
**贡献。**我们做出三项贡献。首先,我们识别出**语义过度特权观察**作为依赖结构化观察的智能体系统中的隐私风险,并将披露前最小化形式化为学习一个符合CI的结构瓶颈。其次,我们提出Minim,通过由联合敏感性和必要性预测驱动的规范性策略层将上下文评分与策略执行解耦,并使用一个CI感知的目标函数进行训练,该目标函数惩罚不必要的高风险内容披露。最后,我们在源自WebArena(Zhou等,2024)的多个领域(购物、Reddit和Gmail)上实例化为无障碍树的真实智能体观察上评估Minim,展示了在保留任务关键内容的同时大幅减少与任务无关的敏感泄露。
参见图注
**图1:Minim系统架构。** 可信本地代理拦截原始结构化观察(例如,无障碍树)并执行情境完整性驱动的清理。通过联合预测敏感性和任务条件必要性,Minim实现了一个结构瓶颈,在信息传输到远程智能体之前对其进行过滤或抽象化。
## 2 问题设置与预备知识
我们关注作用于结构化观察的自主智能体的隐私保护感知。虽然我们的框架可推广到各种层次化状态描述,但我们在无障碍树上实例化和评估我们的方法,这种树是现代操作系统级智能体的主要接口。
**结构化接口表示。** 令\(X_{t}\)表示时间\(t\)的原始结构化观察,建模为元素\(\{e_i\}_{i=1}^N\)的层次化树。每个元素\(e_i\)由一组属性表征,包括其语义角色(例如,按钮、标题)、文本内容、交互状态(例如,已选、禁用)以及深度和谱系等结构属性。与基于像素的输入不同,这种表示为智能体推理提供了离散且语义丰富的基础。
**智能体交互模型。** 智能体在依赖于用户任务\(T\)的序列观察-动作循环中运行。在每个时间步\(t\),智能体从其策略\(\pi\)中采样一个动作\(a_t\):\(a_t \sim \pi(\cdot \mid Z_t, T)\),其中\(Z_t\)表示暴露给远程推理服务器的观察。在标准部署中,服务器接收完整的原始状态(\(Z_t = X_t\))。我们的目标是插入一个本地变换函数\(f\)以产生清理后的视图\(Z_t = f(X_t, T)\),该视图最小化敏感信息泄露,同时保留完成任务\(T\)所需的效用。关键是,\(Z_t\)不严格是\(X_t\)的子集,因为\(f\)可能涉及元素的修剪和特定属性的抽象化。
**情境完整性。** CI认为,隐私由遵守适当的信息流动规范而非绝对保密来治理(Nissenbaum,2004)。这些规范由四个参数刻画:**上下文**、**行动者**(发送者和接收者)、**属性**(信息类型)和**传输原则**(信息如何流动的约束)。最近的工作开始将CI作为LLM助手和对话智能体中披露和社会推理的规范性视角(Lan等,2025;Mireshghallah等,2023;Tan等,2026)。我们的工作将这一视角扩展到智能体的观察通道,通过在披露之前对结构化元素及其属性进行任务条件必要性的可操作化。在我们的设置中,用户的活动任务\(T\)建立**上下文**,而客户端设备和远程推理服务器作为**行动者**。\(X_t\)中的数据字段对应于**属性**。我们针对一个**传输原则**——任务条件必要性,要求具有高披露风险的信息只有在当前任务完成必不可少时才被共享。我们通过学习敏感性(\(s_i\))和必要性(\(n_{i,T}\))的预测信号来驱动披露策略,从而可操作化这一原则。
**威胁模型。** 我们假设Minim作为可信代理本地部署,拦截智能体的原始观察,并在任何数据传输到远程推理服务器之前输出一个清理后的视图。我们的威胁模型排除对托管Minim的本地环境的攻破,包括操作系统级恶意软件和特权攻击者。远程智能体是诚实但好奇的:它根据披露的观察和任务描述按照协议执行任务,同时被动地收集与任务无关的内容(例如,后台窗口)以用于下游画像或推断。我们不考虑试图通过提示注入或恶意内容操纵智能体的主动攻击者,因为此类攻击与我们对披露前观察最小化的关注正交。
## 3 相关工作
先前针对LLM系统的防御主要关注非结构化语言,通过基于模式的检测器或用户干预来识别敏感内容。用户中心的工具如PrivWeb(Zhang等,2025b)采用人在回路过滤,这难以扩展到自主工作流。自动化方法,包括本地网关和中介(例如,AirGapAgent(Bagdasarian等,2024)、Portcullis(Zhan等,2025)和Papillon(Li等,2025))以及PII修订基准和评估(Shen等,2025;Sun等,2025),主要针对对话提示、日志或自由格式文本。与此同时,最近的工作开始量化智能体设置中的隐私泄露和数据最小化目标(Zharmagambetov等,2025;Wang等,2025b)。虽然这些方法为减少披露提供了重要的基线,但它们并不直接处理观察是**结构化**且行为关键的智能体。在这种设置中,天真的修订或扰动可能破坏可靠决策和执行所需的结构和语义线索。我们的工作侧重于在任务条件规范下对结构化观察进行披露前最小化,并在无障碍树上实例化和评估该方法。补充性的工作系统化了更广泛的智能体安全和隐私威胁面(Yu等,2025;He等,2025),分析了来自智能体记忆和日志记录的隐私风险(Wang等,2025a;Liu等,2026)。
## 4 方法论
### 4.1 概述
我们研究CI下智能体观察的披露前最小化。核心张力在于,远程智能体需要一些UI上下文才能可靠地行动,但发送完整的结构化状态(例如,无障碍树)通常会泄露敏感且与任务无关的信息。我们的目标是最小化敏感披露,同时仍然传输当前任务上下文所需的最小必要信息。图1通过一个具体示例说明了这一过程。用户分享其桌面的截图给远程智能体AI系统,以帮助回复一封邮件。原始界面状态包括邮件内容和无关的UI上下文,例如显示验证码的系统通知。虽然这个验证码是敏感的,但它与邮件回复任务无关。在我们的方案下,一个可信本地代理拦截原始观察。相似文章
能力最小化作为一种安全原语:面向最小权限LLM代理的风险感知因果门控
本文提出风险感知因果门控(RACG),这是一种无需训练的机制,将最小权限原则应用于LLM代理的工具暴露,仅在授权和因果必要时暴露高风险工具,从而减少提示注入的攻击面。
内存增强型LLM智能体中的状态污染
本文识别并研究了LLM智能体中的“记忆洗白”现象,即有毒或对抗性上下文被压缩成记忆摘要后,能够逃避标准毒性检测器,同时仍影响后续生成。文章引入了亚阈值传播间隙(SPG)来衡量隐藏的下游影响,并表明在摘要之前对有毒状态进行消毒比事后清理更有效。
基于解耦表示的分布式智能体协作隐私保护文本净化
本文介绍了DiSan,一个用于分布式智能体协作的隐私保护文本净化框架。通过将源不变的角色内容与源识别的风格解耦,DiSan在多智能体RAG基准上将PII暴露降低20倍,同时保持83%的回答忠实度,优于传统的掩码方法。
POLAR-Bench:用于LLM智能体中隐私-效用权衡的诊断基准
POLAR-Bench是一个诊断基准,通过测试LLM智能体在受到第三方模型对抗性探测时遵循隐私策略的能力,来评估隐私-效用的权衡。结果显示,前沿模型保护了超过99%的受保护属性,但较小的开源权重模型泄露了一半以上,突显了意图遵循方面的差距。
MosaicLeaks:你的研究助手能保守秘密吗?
MosaicLeaks 提出了一个新的基准,用于衡量深度研究型AI助手的隐私泄露情况,结果表明这些助手经常通过外部查询泄露私人信息,并提出了一种训练方法(PA-DR),在降低泄露的同时提升任务性能。