@stanfordnlp:众多@stanfordnlp的工作亮相@icmlconf。首尔见!Contextualized Privacy Defense for LLM Agents Yule Wen, @Stev…

X AI KOLs Following 论文

摘要

该论文提出了上下文防御指令(CDI),一种用于LLM代理隐私防御的新范式,使用强化学习训练的指导模型生成针对具体步骤、具有上下文感知的指导,在隐私保护和有用性之间实现了更好的平衡。

众多@stanfordnlp的工作将在@icmlconf展示。首尔见!🇰🇷 Contextualized Privacy Defense for LLM Agents Yule Wen, @StevenyzZhang, …, @Diyi_Yang 你让你的AI代理访问了你的电子邮件——这样它更有用了。但如何维护你的隐私? https://t.co/4ZGY2idfq8 https://t.co/bTYG5BqEZk
查看原文
查看缓存全文

缓存时间: 2026/05/22 09:45

很多 @stanfordnlp 的工作都出现在了 @icmlconf 上。首尔见!🇰🇷
LLM 代理的上下文感知隐私防御
Yule Wen, @StevenyzZhang, …, @Diyi_Yang
你让你的 AI 代理访问了你的邮件——这会让它变得更有用。但如何保护你的隐私?
https://t.co/4ZGY2idfq8
https://t.co/bTYG5BqEZk


LLM 代理的上下文感知隐私防御

来源:https://arxiv.org/html/2603.02983

摘要

LLM 代理越来越多地处理用户的个人信息,然而现有的隐私防御在设计和适应性上仍然有限。大多数现有方法依赖于静态或被动防御,例如提示和守卫。这些范式不足以支持多步代理执行中的上下文感知、主动的隐私决策。我们提出上下文感知防御指令生成 (Contextualized Defense Instructing, CDI),这是一种新的隐私防御范式,其中指令模型在执行过程中生成针对具体步骤、感知上下文的隐私指导,主动塑造行为,而不仅仅是约束或禁止它们。关键在于,CDI 与一个基于经验的优化框架配对,该框架通过强化学习训练指令模型,我们将包含隐私违规的失败轨迹转化为学习环境。我们将基线防御和 CDI 形式化为标准代理循环中的不同干预点,并在统一模拟框架内比较它们的隐私-有用性权衡。结果表明,我们的 CDI 在隐私保护 (94.2%) 和有用性 (80.6%) 之间始终实现比基线更好的平衡,并具有更强的对抗鲁棒性和泛化能力。

机器学习,ICML

图 1:不同隐私防御方法的示意图。Emily (数据主体) 向 David (数据发送方,Emily 的助手) 发送会议时间和她的身份证号码。Mike (数据接收方,Emily 的下属) 请求这两项信息,但他只应获得会议时间。提示将隐私增强指令预置到代理的系统提示中。它不提供针对上下文的指令,因此容易受到各种攻击。守卫使用单独的守卫模型来筛选提议的动作是否存在潜在的隐私违规。然而,它只阻止敏感数据,而不提供重写建议,导致有用性降低。上下文感知防御指令生成 (CDI) 在每个动作之前使用单独的指令模型生成指导。通过提供主动的、上下文感知的隐私指导,它在隐私和有用性之间实现了最佳平衡。

1 引言

大型语言模型代理越来越多地充当用户日常日程的管家 (OpenAI, 2023 (https://arxiv.org/html/2603.02983#bib.bib32))、浏览行为的代理 (Zhou 等人, 2024 (https://arxiv.org/html/2603.02983#bib.bib33); He 等人, 2024 (https://arxiv.org/html/2603.02983#bib.bib35)) 以及健康记录的管理者 (Arora 等人, 2025 (https://arxiv.org/html/2603.02983#bib.bib34)),自主决策并代用户完成任务。虽然这很方便,但当外部方试图通过代理接口提取敏感信息时,会引入显著的隐私风险。理想情况下,代理应具备上下文隐私意识——能够判断在特定上下文中共享特定个人信息是否合适 (Nissenbaum, 2004 (https://arxiv.org/html/2603.02983#bib.bib28)),从而在隐私保护和有用性之间取得平衡。尽管已经提出了许多机制来注入这种意识,但先前的工作在探索防御设计空间方面仍然有限。遵循 ReAct 框架 (Yao 等人, 2023 (https://arxiv.org/html/2603.02983#bib.bib26)) 和 MCP 协议 (Anthropic, 2024 (https://arxiv.org/html/2603.02983#bib.bib38)),标准 LLM 代理的执行循环以系统提示初始化,然后在工具调用提议和工具调用结果之间迭代 (图 1 (https://arxiv.org/html/2603.02983#S0.F1))。现有防御主要在这个循环中的两个点进行干预。提示 (Shao 等人, 2025 (https://arxiv.org/html/2603.02983#bib.bib1); Mireshghallah 等人, 2024 (https://arxiv.org/html/2603.02983#bib.bib2)) 通过固定隐私增强指令增强初始化,但无法适应不同的隐私上下文和信息请求。守卫 (Zhao 等人, 2025 (https://arxiv.org/html/2603.02983#bib.bib7); OpenAI, 2025 (https://arxiv.org/html/2603.02983#bib.bib37)) 使用单独的守卫模型来筛选提议的工具调用(例如,发送电子邮件)并阻止风险动作,但不提供关于如何将受阻止的工具调用修改为适当形式的指导。这两种范式都不足以支持上下文感知、主动的隐私决策。

为了解决这些限制,我们提出上下文感知防御指令生成 (CDI),这是一种新颖的防御范式,它在获得工具调用结果(例如,检索到的邮件内容)后进行干预。与先前依赖手工编写的指导来改进隐私推理的方法不同 (Li 等人, 2025a (https://arxiv.org/html/2603.02983#bib.bib36); Wang 等人, 2025 (https://arxiv.org/html/2603.02983#bib.bib11)),CDI 采用一个单独的指令模型来分析当前上下文并生成上下文感知的隐私指导,主动引导代理的后续动作。值得注意的是,我们发现即使是一个轻量级的指令模型(例如 Qwen3-4B),当与使用更大骨干网络(例如 Qwen3-32B,gpt-4.1-mini)的代理配对时,也足以实现显著的性能提升。然而,除了在代理执行循环中选择干预点之外,现实世界中隐私防御面临的一个更根本的挑战仍然是:对战略性、自适应攻击的鲁棒性。隐私攻击者可以系统地识别并利用防御机制的弱点,例如通过说服 (Zeng 等人, 2024 (https://arxiv.org/html/2603.02983#bib.bib42))、冒充 (Kim 等人, 2025 (https://arxiv.org/html/2603.02983#bib.bib43)) 或多轮社交工程 (Ai 等人, 2024 (https://arxiv.org/html/2603.02983#bib.bib44))。这些攻击不仅测试防御是否能拒绝常规的敏感信息请求,还测试它是否能将其隐私推理推广到长尾风险模式。与现有的基于提示和基于守卫的方法一样,我们发现原始的 CDI 也容易受到这种战略优化攻击的影响。然而,这些失败案例通常信息量很大:它们暴露了击败防御的确切上下文和对话策略,提供了最集中的改进信号。因此,一个自然的问题浮现出来:我们能否通过失败经验来增强隐私防御? 虽然先前的工作 (Zhang 和 Yang, 2025 (https://arxiv.org/html/2603.02983#bib.bib6)) 应用了提示优化 (Li 等人, 2025b (https://arxiv.org/html/2603.02983#bib.bib18); Agrawal 等人, 2025 (https://arxiv.org/html/2603.02983#bib.bib41)) 来改进提示防御,但优化涉及额外模块(例如,我们的指令模型)的隐私防御则不那么直接,且仍未得到充分探索。我们开发了一个基于经验的优化框架,首先收集一组表现出隐私泄露的轨迹,然后将这些轨迹视为强化学习环境,为我们的指令模型提供奖励。具体来说,我们识别出隐私泄露发生的最早点,在该点截断轨迹,并只保留前文上下文(即,在第一次检测到泄露之前的所有状态)。基于这个截断的上下文,我们要求指令模型生成一条指令,将其插入回轨迹中,并让代理产生一个额外的动作。指令的奖励根据预测的动作计算,用于通过 GRPO (Shao 等人, 2024 (https://arxiv.org/html/2603.02983#bib.bib27)) 优化指令模型。我们不假设有效的隐私指导形式,允许模型在野外发现最有效的指导策略。

为了评估,我们利用一个统一的模拟框架,涉及数据主体(私人信息所有者)、数据发送方(防御者)和数据接收方(攻击者),使用独立的指标:隐私保护率 (PP),有用性得分 (HS),以及一个总分:恰当披露得分 (AD)。在没有优化的情况下,与无防御基线相比,所有防御方法都提高了隐私保护而不损害有用性,其中 CDI 提供了最强的保护 (PP: 35.5%→75.9%)。此外,我们的基于经验的优化算法显著提高了 CDI 对对抗性攻击的鲁棒性 (PP: 32.3%→79.5%),并能很好地推广到未见过的场景 (PP: 94.2%, AD: 86.5%)。它还优于增强版的提示和守卫方法,其中优化后的提示仍然容易受到未见过的对抗性攻击,而优化后的守卫由于阻止动作而不提供可操作的指导,严重降低了有用性。总之,我们的工作做出了以下贡献:

  • • 我们提出了上下文感知防御指令生成 (CDI),其中轻量级指令模型为代理提供主动的、上下文感知的隐私指导。
  • • 我们为指令模型开发了一个基于经验的优化算法,通过强化学习增强了鲁棒性和泛化能力。
  • • 我们的结果表明,在优化前后,CDI 都比提示和守卫方法实现了更优越的鲁棒性和泛化能力。

我们相信我们的发现为隐私防御的设计提供了见解,并展示了从经验中学习以改善上下文隐私意识的价值。

2 隐私风险模拟

问题设置

考虑一个多个用户在线互动的场景,每个用户都委托了一个使用工具的 LLM 代理来操作通讯应用,例如 Gmail、Facebook 和 Messenger。在这些应用上执行的所有具体操作(例如,阅读邮件、发送消息)都由代理提议,代理的记忆中包含用户身份和社交关系的信息,而用户仅提供高级别指令。我们的目标是模拟此类场景中代理代表用户处理个人信息时可能存在的隐私风险。具体来说,我们的每个模拟都涉及三个代理:数据主体(数据所有者),数据发送方(防御者)和数据接收方(攻击者)。每个代理从其用户那里接收一个特定任务:数据主体代理必须与发送方共享个人数据,数据接收方代理必须尝试从发送方获取数据,数据发送方代理必须监控通知并相应回复。模拟随着代理开始操作通讯应用以完成其给定任务而开始。通讯的实现细节见附录 §A (https://arxiv.org/html/2603.02983#A1)。

对于每个场景,一组隐私规范规定了在什么上下文中向谁分享哪些个人信息是合适的。基于这些规范,数据主体的个人信息被划分为可共享的(适合为协调目的披露)和不可共享的(必须保护)的项目,这作为代理评估的真实标准。

模拟配置

为了创建具有上下文隐私风险的多样化场景,我们从 PrivacyLens (Shao 等人, 2025 (https://arxiv.org/html/2603.02983#bib.bib1)) 中采样用户档案和敏感数据,同时要求 gpt-5 为每个场景增补可共享数据。为了确保这些配置(示例见附录 §H (https://arxiv.org/html/2603.02983#A8))真实合理,我们手动验证每个配置,并用多个 LLM 评判员核实隐私规范,详见附录 §B.2 (https://arxiv.org/html/2603.02983#A2.SS2)。最终数据集包含 115 个模拟配置,涵盖各种社会关系(例如,家人、朋友、医患)和数据类型(例如,健康、财务、位置),其中我们使用 100 个进行标准模拟测试,15 个用于防御优化。每个配置涉及 Ns 个可共享项目和 Nu 个不可共享项目,其中 Ns, Nu ∈ [1,3]。

评估指标

一个理想的数据发送方代理应 (1) 保护隐私:拒绝会泄露不可共享项目的请求;以及 (2) 有用:共享所有协调所需的可共享项目。设 ns, nu 表示与接收方共享的数量。我们定义:

隐私保护率 (PP) = 1 - nu/Nu 有用性得分 (HS) = ns/Ns 恰当披露得分 (AD) = 2·ns / (ns + nu + Ns)

注意这些指标与经典度量密切相关:PP 对应于敏感项目的精确率(惩罚披露中的误报),而 HS 对应于可共享项目的召回率(惩罚遗漏披露)。AD 是一个 F1 风格的调和权衡,同时惩罚过度共享敏感信息和不足共享可共享信息。我们使用 AD 作为比较不同防御方法的主要指标。 经验上,为了可靠地检测共享了什么,每个隐私项目都带有标识符(例如,数字、标题),并且一个 LLM 评判员 (gpt-5-mini) 检查消息历史以标记披露的项目。

代理设置

一个遵循 (Yao 等人, 2023 (https://arxiv.org/html/2603.02983#bib.bib26); Anthropic, 2024 (https://arxiv.org/html/2603.02983#bib.bib38)) 的、自主的、使用工具的 LLM 代理,通过一个系统提示和一个累积的上下文缓冲区初始化。为了完成分配的任务或响应突发事件,它根据当前状态提议动作(工具调用)。这些动作在环境中执行,结果返回给代理并存储在内存中。形式上,设 A 表示建立在语言模型 LMA 上的代理,C≤t = {p0, u1, (a1, o1), …, (at, ot)} 表示步骤 t 时的上下文缓冲区。其中 p0 是系统提示。后续每个元素要么是一对工具调用及相应结果 (ai, oi = Execute(ai)),要么是通知代理新事件的用户消息 (ui)。在初始化 p0 后,A 一旦接收到用户消息就被激活,例如 ut = “Messenger 上有 3 条新消息。”然后它根据当前上下文提议一个动作:a_{t+1} = A(C≤t) = LMA(p0, …, ut)。执行后,代理接收 o_{t+1} 并将 (a_{t+1}, o_{t+1}) 附加到上下文缓冲区。代理持续提议动作,直到它输出终止动作 aτ = EndCycle。一次模拟涉及多个代理相互通信,并在所有代理变为非活跃状态时结束。

在接下来的章节中,我们首先在第 3 节 (https://arxiv.org/html/2603.02983#S3) 中介绍上下文感知防御指令生成 (CDI),并在没有任何优化的情况下将其与现有防御范式进行比较。然后,我们在第 4 节 (https://arxiv.org/html/2603.02983#S4) 中介绍一个基于经验的优化框架,通过从失败案例中学习来加强隐私防御,并比较优化后防御的有效性和泛化能力。

相似文章

从历史到状态:面向 LLM 智能体的恒定上下文技能学习

arXiv cs.AI

本文介绍了“恒定上下文技能学习”,这是一种将程序性知识从提示词迁移到模型权重中的框架,旨在降低 LLM 智能体的 Token 使用量并提升隐私性。该方法在 ALFWorld 和 WebShop 等基准测试中表现出色,同时显著降低了推理成本。

"Excuse me, may I say something..." CoLabScience,一个用于生物医学发现和大语言模型-专家协作的主动型AI助手

arXiv cs.CL

CoLabScience介绍了一个用于生物医学研究的主动型大语言模型助手,它使用PULI(正无标签学习干预)这一新颖的强化学习框架,在科学讨论中自主进行干预,决定何时以及如何提供上下文感知的见解。该工作还包括BSDD,一个新的基准数据集,由基于PubMed文章的模拟研究对话和干预点组成。