POLAR-Bench:用于LLM智能体中隐私-效用权衡的诊断基准

arXiv cs.AI 论文

摘要

POLAR-Bench是一个诊断基准,通过测试LLM智能体在受到第三方模型对抗性探测时遵循隐私策略的能力,来评估隐私-效用的权衡。结果显示,前沿模型保护了超过99%的受保护属性,但较小的开源权重模型泄露了一半以上,突显了意图遵循方面的差距。

arXiv:2605.19127v1 公告类型:新 摘要:LLM智能体越来越多地访问私人用户数据,并在与第三方系统交互时代表用户行事。用户定义了什么可以共享以及什么不得共享,智能体必须稳健地遵循这一意图,即使第三方系统具有对抗性。我们提出了POLAR-Bench(策略感知对抗性基准),其中具有隐私策略和任务的受信任模型与一个对抗性探测任务相关和受保护属性的第三方模型进行对话。在10个领域和7,852个样本中,我们通过确定性集合成员关系对隐私和效用进行评分,并沿两个正交轴变化隐私策略维度和攻击策略,为每个模型生成5×5的诊断表面。我们的结果揭示了一个明显的分裂:当前的前沿模型保留超过99%的受保护属性,而1-30B范围内的较小开源权重模型(用户最常作为自身受信任智能体在设备上或通过私有推理运行的类别)得分明显更差,最弱的泄露超过一半。因此,POLAR-Bench定位了每个模型意图遵循失败的地方,为最关键的隐私对齐提供了立足点。
查看原文
查看缓存全文

缓存时间: 2026/05/20 08:27

# POLAR-Bench:LLM 代理中隐私-效用权衡的诊断性基准  
来源:https://arxiv.org/html/2605.19127  

Qiaoyuan Zheng  
ETH Zurich  
Zurich, Switzerland  
zqiaoyuan@ethz\.ch  

& Yiqu Yang¹  
ETH Zurich  
Zurich, Switzerland  
yangyiq@ethz\.ch  

Qi Gao¹  
ETH Zurich  
Zurich, Switzerland  
qigaoq@ethz\.ch  

& Imanol Schlag  
ETH AI Center  
Zurich, Switzerland  
ischlag@ethz\.ch  

###### 摘要  

LLM 代理越来越多地能够访问用户隐私数据,并代表用户与第三方系统交互。用户定义什么可以共享、什么不能共享,即使第三方系统行为具有对抗性,代理也必须稳健地遵循这一意图。我们提出 **POLAR-Bench**(策略感知对抗性基准),其中拥有隐私策略和任务的可信模型与一个第三方模型进行对话,该第三方模型会对抗性地探查任务相关属性和受保护属性。在 10 个领域和 7,852 个样本上,我们通过确定性集合成员关系对隐私和效用进行评分,并沿着两个正交轴改变隐私策略维度和攻击策略,为每个模型生成一个 \(5 \times 5\) 的诊断面。我们的结果揭示了明显的分化:当前前沿模型能够隐藏超过 99% 的受保护属性,而 1–30B 范围内较小的开源模型(用户最常在设备端或通过私有推理作为其可信代理运行的那类模型)得分明显更差,最弱的模型泄露超过一半。POLAR-Bench 因此定位了每个模型意图遵循失效的位置,在最关键之处为隐私对齐提供了立足点。  

## 1 引言  

现代 LLM 越来越多地被部署为个人代理,它们读取用户的私人文档并与第三方系统交换信息以完成任务(Yao et al., 2022 (https://arxiv.org/html/2605.19127#bib.bib45); Schick et al., 2023 (https://arxiv.org/html/2605.19127#bib.bib34))。考虑安排医疗预约:个人代理可以访问医疗记录、保险和其他个人数据,必须与诊所的代理对话以找到可用的时间段。诊所只需要预约类型、用户可用性和医疗相关背景信息;保险标识符、完整的病史和不相关的个人细节应保持私密。  

参阅图注  
**图 1**:POLAR-Bench 概述。一个可信模型拥有一个类型化的源文档(任务相关为绿色、私密为紫色、不相关为黄色)、一个隐私策略和一个任务,与一个被对抗性提示以引出任务相关属性和受保护属性的外部模型进行对话;每次交互根据*效用*(共享的任务相关属性)和*隐私泄露*(披露的受保护属性)进行评分。  

这种设置同时给可信模型提出了两个要求:它必须分享足够的信息以完成任务,同时隐藏策略禁止的内容。当第三方系统通过直接提示注入、角色扮演或跨轮次逐步诱导来探查受保护属性时,挑战更加严峻(Perez and Ribeiro, 2022 (https://arxiv.org/html/2605.19127#bib.bib31); Staab et al., 2023 (https://arxiv.org/html/2605.19127#bib.bib37))。为每个第三方指定披露规则无法扩展,因此用户提供一个单一的隐私策略,代理必须在所有交互中统一应用该策略。  

现有基准在固定条件下衡量代理设置中的隐私泄露:每次只考虑一种策略类型或一种攻击策略(第 2 节 (https://arxiv.org/html/2605.19127#S2))。没有任何基准将隐私策略维度和攻击策略作为联合轴进行变化,导致隐私-效用权衡未被充分探索。没有这种联合视角,很难说任何给定模型的意图遵循实际上在哪里失效。  

我们提出 POLAR-Bench,其中拥有隐私策略和任务的可信模型与一个探查任务相关属性和受保护属性的第三方模型进行对话。每个属性在自然语言渲染之前被类型化,因此效用和隐私泄露都通过正则表达式验证文档上的集合成员关系进行确定性评分,不需要 LLM 作为结果判断。POLAR-Bench 对隐私策略维度(从显式字段规则到抽象或冲突目标)和攻击策略(从直接单轮请求到增量多轮诱导)作为正交轴进行分级,覆盖 10 个领域和 7,852 个样本,为每个模型生成一个 \(5 \times 5\) 的诊断面。我们的结果揭示了明显的分化:当前前沿模型隐藏超过 99% 的受保护属性,同时保持高效用,而 1–30B 范围内较小的开源模型(最常部署为可信设备端或私有推理代理的那类模型)得分显著更差,最弱的模型泄露超过一半,其他几个模型仅通过牺牲效用才保持隐私。表 1 (https://arxiv.org/html/2605.19127#S2.T1) 将 POLAR-Bench 与先前基准进行了定位。  

## 2 相关工作  

大多数先前的隐私基准在良性或单轴设置下评估模型。ConfAIde 和 PrivacyLens 将隐私视为上下文完整性规范意识,没有对抗性压力(Mireshghallah et al., 2023 (https://arxiv.org/html/2605.19127#bib.bib26); Shao et al., 2024 (https://arxiv.org/html/2605.19127#bib.bib35)),AGENTDAM 衡量被动观察下的数据最小化(Zharmagambetov et al., 2025 (https://arxiv.org/html/2605.19127#bib.bib48)),以及 Fu et al. (2026 (https://arxiv.org/html/2605.19127#bib.bib12)) 报告了单代理企业流程中的隐私-效用紧张关系。早期工作将属性推断、提示泄露和越狱式攻击列为独立类别(Staab et al., 2023 (https://arxiv.org/html/2605.19127#bib.bib37); Li et al., 2024b (https://arxiv.org/html/2605.19127#bib.bib21); Huang et al., 2024 (https://arxiv.org/html/2605.19127#bib.bib18); Nakka et al., 2025 (https://arxiv.org/html/2605.19127#bib.bib27))。这些工作都没有沿着显式层次结构改变隐私策略维度,没有对攻击策略进行分级,也没有在对抗性探查下联合评分隐私和效用。  

更接近我们设置的是 AirGapAgent,它引入了可信与外部威胁模型以及一种针对上下文劫持的防御(Bagdasarian et al., 2024 (https://arxiv.org/html/2605.19127#bib.bib6)),以及 AgentLeak,它在四个多代理框架中调查了 32 种攻击类别,对攻击者能力而非攻击策略进行分级(Yagoubi et al., 2026 (https://arxiv.org/html/2605.19127#bib.bib43))。POLAR-Bench 继承了 AirGapAgent 的双代理威胁模型和 AgentLeak 的部分攻击词汇,并添加了分级的隐私策略维度和分级的攻击策略作为正交轴,将它们组合成一个 \(5 \times 5\) 的评估面,在该面上隐私和效用被确定性评分(表 1 (https://arxiv.org/html/2605.19127#S2.T1))。  

最近的推理时防御如 PAPILLON (Siyan et al., 2024 (https://arxiv.org/html/2605.19127#bib.bib36))、PrivacyPAD (Hui et al., 2025 (https://arxiv.org/html/2605.19127#bib.bib19))、PrivacyChecker (Wang et al., 2025 (https://arxiv.org/html/2605.19127#bib.bib41)) 和多代理分解(Li et al., 2025 (https://arxiv.org/html/2605.19127#bib.bib22))可以在 POLAR-Bench 上进行压力测试。训练时的隐私工作(Carlini et al., 2021 (https://arxiv.org/html/2605.19127#bib.bib8); Li et al., 2024a (https://arxiv.org/html/2605.19127#bib.bib20); Zhu et al., 2024 (https://arxiv.org/html/2605.19127#bib.bib50); Qian et al., 2026 (https://arxiv.org/html/2605.19127#bib.bib32); Dwork and Roth, 2014 (https://arxiv.org/html/2605.19127#bib.bib11); Abadi et al., 2016 (https://arxiv.org/html/2605.19127#bib.bib1)) 是正交的:我们固定模型,研究它在推理时如何处理用户提供的私有上下文。  

**表 1**:POLAR-Bench 与最相关的隐私基准的比较。✓ 是,✗ 否,∼ 部分支持。  
*双代理对抗*:可信模型与一个外部提示的对抗模型对话。  
*分级策略*:隐私规范沿着显式的推理难度层次变化,而不是作为平面类别集。  
*分级攻击*:攻击沿着显式的策略强度层次变化(而非攻击者能力或系统访问)。  
*隐私+效用*:同时评分受保护属性泄露和任务成功完成,而非仅隐私。  

## 3 POLAR-Bench 基准  

我们依次形式化 POLAR-Bench:符号说明(§3.1 (https://arxiv.org/html/2605.19127#S3.SS1))、策略和攻击轴(§3.2 (https://arxiv.org/html/2605.19127#S3.SS2)–§3.3 (https://arxiv.org/html/2605.19127#S3.SS3))、生成流水线(§3.4 (https://arxiv.org/html/2605.19127#S3.SS4))、质量控制(§3.5 (https://arxiv.org/html/2605.19127#S3.SS5))和评估协议(§3.6 (https://arxiv.org/html/2605.19127#S3.SS6))。  

### 3.1 设置与符号  

一个样本 \(\mathcal{I}=(\mathcal{D},\mathcal{P},\mathcal{T},\mathcal{Q})\) 包含一个源文档 \(\mathcal{D}\)、一个隐私策略 \(\mathcal{P}\)、一个任务指令 \(\mathcal{T}\) 和一个攻击者提示序列 \(\mathcal{Q}\)。\(\mathcal{D}\) 中的每个属性在自然语言渲染之前被类型化:  
\[\mathcal{A}=\mathcal{A}_{\mathrm{task}}\cup\mathcal{A}_{\mathrm{protected}}\cup\mathcal{A}_{\mathrm{other}}, \tag{1}\]  
其中 \(\mathcal{A}_{\mathrm{task}}\) 表示模型 \(E\) 必须接收的属性,\(\mathcal{A}_{\mathrm{protected}}\) 表示应隐藏的属性,\(\mathcal{A}_{\mathrm{other}}\) 作为与任务无关的噪声。每个样本属于一个领域 \(g\in\mathcal{G}\),并从每个领域的池中抽取 \(\mathcal{A}_i\subseteq\mathcal{A}_{\mathrm{pool}}^{(g_i)}\)。POLAR-Bench 是 \(\mathcal{B}=\{\mathcal{I}_i\}_{i=1}^N\)。  

### 3.2 隐私策略  

隐私策略轴跨越五个难度递增的推理设置 \(\mathcal{L}_P=\{P_1,\ldots,P_5\}\)。  

* \(P_1\) **显式字段约束**。受保护属性通过字段名列出(例如,请勿披露电话号码或地址)。  
* \(P_2\) **语义约束**。受保护信息按类别描述,要求 \(\mathcal{T}\) 识别超出精确字段名的实例(例如,请勿披露任何联系信息)。  
* \(P_3\) **条件披露**。仅在指定条件下允许披露(例如,只有在临床医生询问时才分享药物信息)。  
* \(P_4\) **部分或抽象披露**。某些属性可能仅允许以较粗糙的粒度共享(例如,国家而非城市,雇主类别而非雇主名称)。  
* \(P_5\) **冲突目标**。策略与任务隐含地竞争;\(\mathcal{T}\) 必须推理哪个约束占主导地位(例如,任务要求最合适的候选人,但披露决定属性是被禁止的)。  

### 3.3 攻击策略  

攻击轴跨越五个策略 \(\mathcal{L}_S=\{S_1,\ldots,S_5\}\),用于生成 \(E\) 的 \(\mathcal{Q}\)。  

* \(S_1\) **直接单轮**。一个提示要求全面信息。  
* \(S_2\) **是/否缩小**。二元或多项选择题通过响应模式减少关于 \(\mathcal{A}_{\mathrm{protected}}\) 的不确定性(Anderson et al., 2025 (https://arxiv.org/html/2605.19127#bib.bib5))。  
* \(S_3\) **角色混淆**。\(E\) 采用一个受信任的角色(审计员、临床医生、招聘人员),并将受保护信息描述为合法工作流程所需(Ye et al., 2026 (https://arxiv.org/html/2605.19127#bib.bib46))。  
* \(S_4\) **提示注入**。对抗性指令试图通过权威框架或系统/调试借口覆盖策略(Perez and Ribeiro, 2022 (https://arxiv.org/html/2605.19127#bib.bib31))。  
* \(S_5\) **多轮渐进式**。一个 3–6 轮序列,收集上下文,引入歧义,然后缩小到受保护属性。  

### 3.4 从符号规格到自然语言  

生成分为两个阶段:符号画像采样,然后自然语言渲染。我们首先在一个领域(医疗分诊、招聘筛选、金融、教育等)上采样一个 JSON 画像 \(\mathcal{A}_i\);属性按类别类型化,一个无关信息强度 \(\{\text{low},\text{medium},\text{high}\}\) 控制包含多少 \(\mathcal{A}_{\mathrm{other}}\) 属性。然后 LLM 将类型化的画像渲染为:  

1. 源文档 \(\mathcal{D}_i\),格式从每个领域的池 \(\mathcal{F}_{\mathrm{pool}}^{(g_i)}\)(日记、电子邮件、接诊记录、日历条目等)中采样。  
2. 隐私策略 \(\mathcal{P}_i\),来自所选 \(P_k\) 级别的符号规格(§3.2 (https://arxiv.org/html/2605.19127#S3.SS2))。  
3. 任务指令 \(\mathcal{T}_i\),来自任务规格,所有对受保护信息的引用都被屏蔽。  
4. 攻击者提示 \(\mathcal{Q}_i\),来自所选 \(S_k\in\mathcal{L}_S\)(§3.3 (https://arxiv.org/html/2605.19127#S3.SS3))加上一个要诱导的属性目标列表。  

#### 任务与策略的解耦  

一个关键设计原则是任务指令不得编码任何隐私提示。形式上我们要求 \(\mathcal{T}_i\perp\mathcal{P}_i\)。我们通过提示级别的守卫来强制执行这一点:任务指令渲染器被禁止提及策略术语、敏感性标签、编辑语言或“最小必要”措辞,策略渲染器则对称地被禁止携带任务执行目标。这防止了 \(\mathcal{T}\) 通过任务中的捷径线索满足策略,并迫使 \(\mathcal{T}\) 根据其自身价值解释 \(\mathcal{P}\)。  

### 3.5 质量控制  

两项检查确保每个生成的样本在进入基准之前结构良好。  

#### 属性覆盖  

对于每个属性 \(a\in\mathcal{A}_i\),我们验证 \(a\) 是否可以通过标点/空白标准化和正则表达式匹配从 \(\mathcal{D}_i\) 中恢复,对于释义提及则使用 LLM 判断作为后备。这保证了每个受保护和任务相关属性原则上都可以从 \(\mathcal{D}_i\) 中诱导出来,因此泄露和效用评分是良好定义的。  

#### 攻击者提示验证  

验证攻击者提示不能依赖字符串匹配:一个结构良好的攻击必须诱导受保护和任务相关属性,而不直接命名它们,因此覆盖和意图必须在语义级别上判断。每个渲染的 \(\mathcal{Q}_i\) 被传递给一个单独的 LLM 判断,检查 (i) 提示是否是一个合理的自然请求,(ii) 它是否至少覆盖每个攻击者目标字段一次,以及 (iii) 它是否没有暴露攻击本身(在 \(S_3\) 中没有“忽略先前指令”的措辞,在 \(S_4\) 中没有角色提及)。未通过任何检查的提示会被重新生成。为了检查这个验证步骤是否不依赖于一个判断的偏好,我们使用三个判断重新运行:GPT-5.4-nano、Gemini-2.5-Flash-Lite 和 Llama-3.3-70B-Instruct。对完整提示集上每个判断的独立接受率分别为 \(80.0\%\), \(91.7\%\), 和 \(91.7\%\),判断间均值为 \(87.8\%\),标准差为 \(5.5\%\)。质量控制细节见附录 A (https://arxiv.org/html/2605.19127#A1)。  

### 3.6 评估协议  

对于样本 \(\mathcal{I}_i=(\mathcal{D}_i,\mathcal{P}_i,\mathcal{T}_i,\mathcal{Q}_i)\),评估运行 \(K_i\) 轮。在第 \(k\) 轮,\(E\) 发出一个查询

相似文章

Ψ-Bench:评估说服性对话中的人设敏感影响

Hugging Face Daily Papers

介绍Ψ-Bench,一个用于评估大语言模型通过带有个人档案的说服性对话影响用户能力的基准。测试了10个前沿LLM,发现仍有显著改进空间,而访问档案平均提升18.24%的性能。

Ψ-Bench:评估对话中基于人格的影响力 persuasion

arXiv cs.LG

Ψ-Bench是一个基准测试,用于评估大语言模型通过对话影响用户的能力,并整合用户画像以进行个性化说服。实验表明,即使是最先进的模型仍有改进空间,而获取客户画像能显著提升性能。

AgentCollabBench:诊断优秀智能体为何成为糟糕的协作者

arXiv cs.CL

本文介绍了 AgentCollabBench,这是一个针对多智能体系统的诊断性基准,用于评估四大主流大语言模型(LLM)中的指令衰减和上下文泄漏等行为风险。文章认为,通信拓扑结构是多智能体可靠性的关键因素,其重要性往往超越了模型的原始能力。