基于解耦表示的分布式智能体协作隐私保护文本净化
摘要
本文介绍了DiSan,一个用于分布式智能体协作的隐私保护文本净化框架。通过将源不变的角色内容与源识别的风格解耦,DiSan在多智能体RAG基准上将PII暴露降低20倍,同时保持83%的回答忠实度,优于传统的掩码方法。
arXiv:2606.15335v1 公告类型:新
摘要:当分布式智能体跨越组织边界交换文本时,隐私泄露不仅源于显式标识符,还源于分布特征,如格式惯例、词汇选择和句法模式。我们提出DiSan(解耦净化),一个隐私保护净化框架,也是Intern-Shannon中用于多智能体协作的内置组件。DiSan使用双流编码器将文本分解为一个保持任务语义的源不变角色子空间和一个保持本地的源识别风格子空间。联邦原型对齐和对抗正则化使得无需集中原始文本即可进行联合训练。实验表明,标识符级别的掩码是不够的:掩码19.2%的令牌仅使TF-IDF文体学归因降低18.6%。相比之下,DiSan在分布式多智能体RAG基准上将答案级PII暴露降低20倍,同时保持83%的回答忠实度,并且在Enron数据集上,TF-IDF下文体学归因降低73.2%,神经探针下降低70.6%。
查看缓存全文
缓存时间: 2026/06/16 11:47
# Intern-Shannon 基于解耦表示的分布式智能体协作隐私保护文本净化 来源: https://arxiv.org/html/2606.15335 刘璇*周鹤峰*陈思诚杨超徐兴成 曲晶晶†楼炯杰李晓华 1上海人工智能实验室 2上海交通大学 ###### 摘要 当分布式智能体跨组织边界交换文本时,隐私泄露不仅源于显式标识符,还源于*分布特征*,如格式约定、词汇选择和句法模式。我们提出DiSan(解耦净化),一个隐私保护净化框架,也是Intern-Shannon中用于多智能体协作的内置组件。DiSan使用双流编码器将文本分解为保留任务语义的源不变角色子空间和保持本地的源识别风格子空间。联邦原型对齐和对抗性正则化使得无需集中原始文本即可进行联合训练。实验表明,标识符级掩码是不够的:掩码19.2%的token仅使TF-IDF笔迹风格归因降低18.6%。相比之下,在分布式多智能体RAG基准上,DiSan将答案级PII暴露降低了20倍,同时保持了83%的答案忠实度,并在Enron数据集上,在TF-IDF下将笔迹风格归因降低了73.2%,在神经探针下降低了70.6%。 ![[未附图]](https://arxiv.org/html/2606.15335v1/x4.png)![[未附图]](https://arxiv.org/html/2606.15335v1/x5.png)![[未附图]](https://arxiv.org/html/2606.15335v1/x6.png)Intern-Shannon 基于解耦表示的分布式智能体协作隐私保护文本净化 **footnotetext:平等贡献。†通讯作者。代码见 https://github.com/RezinChow/DiSan。Intern-Shannon是上海人工智能实验室开发的新一代智能体操作系统,即将正式发布。##1 引言 参考图注 图1:跨组织文本共享中的隐私风险。顶部:三种代表性协作场景,从无保护到初步过滤,每种都暴露了源识别内容。底部:DiSan生成净化后的文本,既保留任务相关语义,又移除显式PII和分布式的源特征。 跨组织在文本密集型任务上的协作,包括检索增强生成(Lewis et al., 2020 (https://arxiv.org/html/2606.15335#bib.bib17))、分布式问答和跨机构案例检索(Stubbs et al., 2015 (https://arxiv.org/html/2606.15335#bib.bib37)),要求各方共享文本证据,同时保持原始数据本地化。每一方可能拥有具有不同领域专长的专有文档集合,常见模式是请求方从助手方寻求辅助证据,助手方检索本地片段并将其传输用于下游任务,如答案合成(Minaee et al., 2024 (https://arxiv.org/html/2606.15335#bib.bib28))。然而,任何智能体间的文本交换都会暴露超出公共能力标签所揭示的私有组织信息。如图1 (https://arxiv.org/html/2606.15335#S1.F1) 所示,这种风险贯穿跨组织协作的所有层级:从无保护的组织内部传输,到仅应用初步过滤的跨联盟共享。在每种场景中,共享文本在两个层面泄露私有组织信息:显式地通过标识符(如名称、账号和地址),以及隐式地通过*分布特征*:编码原始方内部实践的格式约定、词汇选择和句法模式(Malik and Dustdar, 2011 (https://arxiv.org/html/2606.15335#bib.bib24))。这从根本上是一个表示层面的问题,而非标识符层面:私有组织信息是文本分布的属性,而非单个标识符的属性,因此在文本空间中操作的匿名化方法无法改变这些分布属性。表1 (https://arxiv.org/html/2606.15335#S1.T1) 具体化了这一点:原始共享不仅暴露对手方身份,还暴露专有公告格式、参考方案和行业分类;占位符掩码隐藏了表面标识符,但保留了命名惯例,并将不同实体折叠成通用token,削弱了接地性、来源追踪和跨文档聚合。DiSan则保留了角色事实(如风险敞口金额、行业、评级变动和审查状态),同时抑制了特定源的指纹。 表1:简洁的 CorporateBank→\\toAssetManager 金融风险示例。**粗体**标记在标识符掩码后仍然存在的源识别模式。| 原始私有文本 \(d\) | “PerMeridian Bank’s Counterparty Risk Bulletin (Ref: CR-2024-047), Apex Dynamics carried $6.1M exposure as of Q3 close, was downgraded to BB+, and was flagged for portfolio review.” |
| :--- | :--- |
| 仅占位符掩码 | “PerMeridian Bank’s Counterparty Risk Bulletin (Ref: [ID]), [ORG] carried $6.1M exposure as of Q3 close, was downgraded to BB+, and was flagged for portfolio review.” |
| DiSan 输出 \(\tilde{d}\) | “A corporate-bank Q3 risk bulletin flags an industrials counterparty with $6.1M exposure, a BB+ downgrade, and mandatory portfolio review.” | 现有方法处理的是症状而非结构。基于规则的PII检测器(Li et al., 2021a (https://arxiv.org/html/2606.15335#bib.bib19))针对单个标识符(如命名实体和账号),但对分布特征视而不见,因为私有组织信息是作为统计模式分布在文本中,而非定位在单个片段上。基于LLM的释义(Xiao et al., 2024 (https://arxiv.org/html/2606.15335#bib.bib43))重新排列了表层形式,但没有提供机制确保输出分布在统计上是源不变的。联邦学习(McMahan et al., 2017 (https://arxiv.org/html/2606.15335#bib.bib26))分散了模型训练,但产生的是共享的*预测器*,而非可共享的*数据*。核心挑战是结构性的:什么是最小充分表示,既能保留任务语义,又在统计上是源不变的? 我们提出DiSan,一个用于跨智能体证据交换的净化框架。它学习每个证据片段的角色-风格分解,其中*角色*子空间保留任务相关语义,*风格*子空间捕捉源关联的变异。正交性促进两个子空间分离,而原型对齐使得在不同非IID智能体之间无需集中原始文本即可保持角色表示的可比性。由此产生的净化器从角色流中产生可共享的文本,同时将风格信息保留在本地。DiSan还作为Intern-Shannon的关键隐私保护组件,作为内置文本净化模块集成,可在多智能体协作过程中按需调用。 ##### 贡献。 (i) 文本共享的解耦净化:我们将跨智能体文本净化形式化为角色-风格分解,将任务语义与源关联的变异分开。(ii) 联邦角色对齐:我们引入轻量级原型对齐,以在非IID智能体之间稳定角色空间,无需集中原始文本。(iii) 跨共享层面的隐私诊断:我们在输出、表示和原型层面评估隐私,区分应用阶段泄露与训练阶段伪影。(iv) 实证验证:在分布式智能体RAG上,DiSan将答案级PII暴露降低20倍,同时保持83%的答案忠实度。在Enron邮件上,它将TF-IDF笔迹风格归因降低73.2%,显著优于标识符级掩码。 ##2 相关工作 ##### 隐私保护机器学习。在分布式数据源间保护隐私是协作机器学习中的一个持续挑战(Li et al., 2021a (https://arxiv.org/html/2606.15335#bib.bib19))。差分隐私(DP)(Dwork et al., 2006 (https://arxiv.org/html/2606.15335#bib.bib6))提供了形式化保证,DP-SGD(Ouadrhiri and Abdelhadi, 2022 (https://arxiv.org/html/2606.15335#bib.bib29))将其扩展到深度学习(Feldman et al., 2020 (https://arxiv.org/html/2606.15335#bib.bib7);Abadi et al., 2016 (https://arxiv.org/html/2606.15335#bib.bib1);Canonne et al., 2020 (https://arxiv.org/html/2606.15335#bib.bib3))。联邦学习(McMahan et al., 2017 (https://arxiv.org/html/2606.15335#bib.bib26))使得无需共享原始数据即可协作训练模型(Li et al., 2020a (https://arxiv.org/html/2606.15335#bib.bib18);Liu et al., 2022 (https://arxiv.org/html/2606.15335#bib.bib22);Karimireddy et al., 2020 (https://arxiv.org/html/2606.15335#bib.bib15))。在此范式内,基于原型的方法(Tan et al., 2021 (https://arxiv.org/html/2606.15335#bib.bib38);Zhang et al., 2024 (https://arxiv.org/html/2606.15335#bib.bib46))、基于表示的方法(Li et al., 2021b (https://arxiv.org/html/2606.15335#bib.bib20);Wu et al., 2021 (https://arxiv.org/html/2606.15335#bib.bib42))以及通信高效的技术(Zhang et al., 2022 (https://arxiv.org/html/2606.15335#bib.bib47);Wu et al., 2024 (https://arxiv.org/html/2606.15335#bib.bib41))被提出。最近的联邦RAG公式旨在实现隐私约束下的多方检索(Qian et al., 2025 (https://arxiv.org/html/2606.15335#bib.bib30);He et al., 2025 (https://arxiv.org/html/2606.15335#bib.bib11);Mao et al., 2025 (https://arxiv.org/html/2606.15335#bib.bib25);Chakraborty et al., 2025 (https://arxiv.org/html/2606.15335#bib.bib4))。虽然这些方法专注于训练共享模型或检索器,我们的工作解决了一个互补问题:*净化文本数据本身*,使其可以安全共享用于下游使用。 ##### 文本净化和去标识化。传统的文本去标识化依赖于基于规则或基于NER的PII检测,随后是掩码或替换(Malik and Dustdar, 2011 (https://arxiv.org/html/2606.15335#bib.bib24))。虽然对显式标识符有效,但这些方法忽略了通过写作风格、文档结构和领域特定模式进行的隐式泄露。作者身份归属研究(Stamatatos, 2009 (https://arxiv.org/html/2606.15335#bib.bib36))表明,即使从短文本中,笔迹风格特征也能识别来源。最近的工作探索了基于LLM的释义用于隐私保护(Shi et al., 2025 (https://arxiv.org/html/2606.15335#bib.bib35))以及基于DP的文本生成(Meisenbacher and Matthes, 2024 (https://arxiv.org/html/2606.15335#bib.bib27);Xie et al., 2024 (https://arxiv.org/html/2606.15335#bib.bib44))。然而,DP文本方法会遭受严重的效用下降(对于ε<10\\epsilon<10,连贯性损失30–50%),这对于需要语义保真度的RAG应用来说是不可接受的(Meisenbacher and Matthes, 2024 (https://arxiv.org/html/2606.15335#bib.bib27))。我们的方法通过学习的解耦同时处理显式PII和隐式风格指纹,在文本输出上无需DP噪声的效用成本,实现了强大的经验隐私。 ##### 解耦表示。解耦表示学习旨在分离数据中独立的变异因素(Bengio et al., 2013 (https://arxiv.org/html/2606.15335#bib.bib2))。在NLP中,解耦已被应用于分离内容与风格以进行风格迁移(John et al., 2019 (https://arxiv.org/html/2606.15335#bib.bib14))、分离情感与语义,以及在语音中分离说话者身份与语言内容(Qian et al., 2019 (https://arxiv.org/html/2606.15335#bib.bib31))。最近的工作通过解耦表示实现了文本生成中的显式控制(Liu et al., 2024 (https://arxiv.org/html/2606.15335#bib.bib23);Han et al., 2024 (https://arxiv.org/html/2606.15335#bib.bib10))。这些工作确立了分离语义内容与风格或身份相关因素支持可控生成和隐私保护;我们将相同原理应用于文本共享,目标是隔离任务相关内容与源识别模式。 ##3 问题陈述 ### 3.1 分布式智能体协作的文本共享 考虑CC个分布式智能体,每个智能体托管一个私有文档库Dc\\mathcal{D}_{c}。当一个请求智能体无法在本地回答查询qq时,它通过公共能力标签(如“AssetManager”和“CorporateBank”)的嵌入相似性路由到一个候选助手集C(q)\\mathcal{C}(q)。每个助手检索一个本地片段dd,并返回一个*净化后的*片段d~\\tilde{d}用于下游的RAG或分布式问答。表1 (https://arxiv.org/html/2606.15335#S1.T1) 具体化了净化目标:原始文本暴露显式PII和制度风格指纹;占位符掩码移除标识符但保留分布特征,并且当被掩码片段与任务相关时可能削弱下游接地性;只有表示层面的方法能够针对这两种隐私风险,同时保留任务语义。 ### 3.2 威胁范围 我们的主要隐私关注出现在*应用阶段*。请求智能体从助手智能体接收净化后的证据d~\\tilde{d},并可能试图推断超出助手公共能力标签的信息,包括显式PII、与源关联的写作模式或组织文档指纹。净化器在相同智能体之间以联邦方式训练;协调者遵循协议,不访问原始文本。我们额外评估训练伪影(如上传的原型)是否包含超出公共标签的、与单个源相关的持久分布特征。我们不声称具备形式化差分隐私或对恶意服务器、投毒、提示注入或合谋的鲁棒性;完整威胁模型见附录A (https://arxiv.org/html/2606.15335#A1)。 ##### 目标与验证。我们不隐藏公共能力标签或智能体参与;我们旨在防止超出这些事实的泄露,同时保持下游RAG效用。我们的验证遵循此范围:PII泄露和答案暴露衡量显式标识符;笔迹风格衡量传输文本中的源特征;嵌入和原型归因诊断学习到的共享伪影;F1、忠实度和ChunkHit@3衡量效用。 ##4 方法 ##### 概述。DiSan将角色-风格正交性作为明确的架构约束:一个双流编码器将每个输入投影到一个*角色*子空间(编码源不变的任务语义)和一个*风格*子空间(编码智能体特有的变异)。角色表示用于解码净化后的文本d~\\tilde{d};风格表示辅助本地生成以保证流畅性,然后被丢弃。只有d~\\tilde{d}穿越隐私边界。在不集中原始文本的情况下进行训练存在校准挑战:每个智能体的隔离导致角色空间在不同智能体间漂移,同时降低效用和隐私。DiSan通过交换紧凑的角色原型来解决这一问题,将本地角色分布对齐到共享的全局锚点,并应用对抗性正则化来抑制超出公共智能体标签的特定源原型特征。图2 (https://arxiv.org/html/2606.15335#S4.F2) 展示了架构。 参考图注 图2:DiSan架构。左侧(智能体):一个双流编码器产生角色表示Zr\\mathbf{Z}_{r}(捕捉源不变语义)和风格表示相似文章
Minim:通过可信本地清理实现代理的隐私感知最小化视图
本文介绍了 Minim,一个可信的本地代理,它通过上下文完整性来平衡任务必要性和敏感度得分,为基于LLM的代理执行UI观察的隐私感知最小化。在WebArena上的实验表明,它在保留任务关键信息的同时,减少了不相关的敏感信息泄露。
PrivFusion:一种用于协调分布式数据集的隐私保护多智能体框架
PrivFusion 是一个隐私保护的多智能体框架,可在联邦训练之前自动协调跨机构的结构化数据集,从而减少人工工作量,并实现对敏感临床数据的协作分析。
PAAC:隐私感知型智能体设备-云协同框架
本文提出了 PAAC,一种用于设备-云协同的隐私感知型智能体框架。该框架采用解耦架构和由大语言模型驱动的净化机制,在保护敏感数据的同时保持高性能。
文本扩散模型中的安全感知去噪器
本文介绍了安全感知去噪器(SAD),这是一个在去噪过程中将安全约束整合到文本扩散模型中的框架。其目标是在保持生成质量的同时减少不安全内容的生成,填补了非自回归模型安全研究领域的空白。
@yoheinakajima: 更多人现在正在尝试这种通过共享状态进行通信的智能体方法(而非彼此对话)
Azalia Mirhoseini 强调 DeLM,一种去中心化语言模型方法,其中智能体通过共享状态通信,在SWE-bench Verified上使用Gemini-3 Flash实现了约10%的提升,且成本不到一半。