迈向可信AI:连续数据摘要的多目标对抗攻击与鲁棒防御

arXiv cs.AI 论文

摘要

本文研究了在相似性级别扰动下,通过DR-submodular优化对连续数据摘要的对抗攻击,提出将多目标攻击生成视为最小-最大问题,将鲁棒防御视为正则化最大-最小问题,并提供了理论保证和实验验证。

arXiv:2606.11804v1 公告类型:新论文 摘要:可信AI需要可靠的数据处理流水线,而不仅仅是鲁棒的下游预测模型。作为上游组件,数据摘要决定了哪些信息被保留并传递给后续的学习或决策模块。因此,对摘要过程的对抗性扰动可能在上游层面危及可信AI:它们可能会改变所选摘要,降低其代表性,并进一步降低后续学习任务的效用。在本文中,我们研究了在相似性级别扰动下,通过DR-submodular优化对连续数据摘要的对抗攻击。我们表明,一类多分辨率图像摘要目标可以表述为非负子模集函数的多线性扩展,并满足具有$m$-弱单调性的DR-submodularity。然后,我们将多目标攻击生成表述为一个最小-最大问题,其中优化相似性结构的一个可容许扰动以降低多个目标摘要模型的性能。为了缓解此类扰动,我们将针对混合攻击类型的鲁棒防御表述为一个正则化最大-最小问题。针对这两个问题,我们开发了具有理论保证的近似算法。在真实数据和受控聚类基准上的实验表明,所提出的攻击在典型的低到中等预算范围内是有效的,并且可以导致下游任务性能损失。所提出的防御改进了结构化设置中的鲁棒性-缓解权衡,同时也揭示了真实数据上鲁棒保护的参数敏感性。
查看原文
查看缓存全文

缓存时间: 2026/06/11 13:49

# 迈向可信AI:连续数据汇总的多目标对抗攻击与鲁棒防御  
**来源:** https://arxiv.org/html/2606.11804  

Yuefang Lian, Longkun Guo†,‡, , Zhongrui Zhao†, Zhigang Lu, , Yanan Cai, Shuchao Pang, , Dachuan Xu, Jason Xue  

稿件收到日期:2021年4月19日;修订日期:2021年8月16日。  
†:同等贡献,‡:通讯作者  

Yuefang Lian 现为南开大学(中国天津)成员。本工作是在Yuefang于北京工业大学攻读博士期间,作为访问博士生在詹姆斯·库克大学和西悉尼大学完成的。  
Longkun Guo 现为福州大学(中国福州)成员。  
Zhongrui Zhao 和 Yanan Cai 现为詹姆斯·库克大学(澳大利亚汤斯维尔)和西悉尼大学(澳大利亚悉尼)成员。  
Zhigang Lu 现为西悉尼大学(澳大利亚悉尼)成员。本工作部分完成于Zhigang在詹姆斯·库克大学担任讲师期间。  
Shuchao Pang 现为南京理工大学(中国南京)成员。  
Dachuan Xu 现为北京工业大学(中国北京)成员。  
Jason Xue 现为CSIRO's Data 61(澳大利亚悉尼)和阿德莱德大学负责任AI研究(RAIR)中心成员。  

###### 摘要  

可信AI不仅需要鲁棒的下游预测模型,还需要可靠的数据处理管道。作为上游组件,数据汇总决定了哪些信息被保留并传递给后续的学习或决策模块。因此,对汇总过程的对抗扰动可能以上游方式损害可信AI:它们可能改变选定的摘要,降低其代表性,并进一步削弱后续学习任务的效用。在本文中,我们研究了在相似度级别扰动下,通过DR次模优化对连续数据汇总的对抗攻击。我们证明,一类多分辨率图像汇总目标可以表示为非负次模集函数的多线性扩展,并满足具有mm弱单调性的DR次模性。然后,我们将多目标攻击生成建模为一个极小极大问题,其中优化一个对相似性结构的可允许扰动,以同时降低多个目标汇总模型。为了缓解此类扰动,我们将针对混合攻击类型的鲁棒防御建模为一个正则化的极大极小问题。针对这两个问题,我们开发了具有理论保证的近似算法。在真实数据和受控聚类基准上的实验表明,所提出的攻击在代表性的低至中等预算区间内是有效的,并能导致下游任务性能损失。所提出的防御在结构化设置中改善了鲁棒性与缓解之间的权衡,同时也揭示了真实数据上鲁棒保护的参数敏感性。  

## I. 引言  

可信AI需要整个数据处理管道的可靠性,而不仅仅是下游预测模型的鲁棒性。在许多AI系统中,数据汇总和样本选择被用作上游组件,在训练、检索、存储或决策之前提取代表性信息。尽管这些过程通常被视为无害的预处理步骤,但它们决定了哪些数据被保留并传递给后续模块。因此,对汇总过程的对抗扰动可能以上游方式损害可信AI:它们可以移除代表性信息、增加冗余、扭曲选定的训练或检索集,并最终降低下游任务的可靠性。这使得数据汇总的对抗鲁棒性成为可信AI管道中的一个安全问题。  

连续次模最大化为建模汇总和选择任务提供了一个自然的数学框架。关于次模函数和多线性放松的经典结果[16 (https://arxiv.org/html/2606.11804#bib.bib85),4 (https://arxiv.org/html/2606.11804#bib.bib86)]确立了在离散和连续优化中递减回报结构的重要性,后续研究利用这一结构进行预算分配、数据汇总和代表性选择[19 (https://arxiv.org/html/2606.11804#bib.bib48),18 (https://arxiv.org/html/2606.11804#bib.bib13),8 (https://arxiv.org/html/2606.11804#bib.bib14)]。次模优化也已出现在安全相关的数据处理问题中,例如在虚假数据注入攻击下的大规模网络攻击检测调度[22 (https://arxiv.org/html/2606.11804#bib.bib4)]。然而,这些工作并未研究汇总过程本身作为可信AI管道中上游组件的对抗脆弱性。  

这种上游脆弱性在基于相似性的连续汇总中变得尤为相关。许多汇总目标由成对相似性或特征诱导的相似性得分构建,汇总器基于这种相似性结构优化一个软选择向量。因此,相似性构建阶段自然成为一个攻击面:攻击者可以扰动相似性矩阵,而不直接修改最终的汇总决策变量。此类扰动可能源于检索型系统中被操纵的特征表示,或改变邻域或基于相似性结构的恶意样本[24 (https://arxiv.org/html/2606.11804#bib.bib2),5 (https://arxiv.org/html/2606.11804#bib.bib1)]。当汇总模块在受扰动目标上执行后,在原始清晰目标下评估时,选定的摘要可能变得不那么具代表性。在多目标环境中,这一风险被进一步放大,其中多个汇总模型可能基于相关数据源或相似的特征表示构建。在这种情况下,对上游相似性结构的单一扰动可能同时降低多个目标汇总模型,这激发了对基于相似性的连续汇总的多目标攻击公式。  

现有的对抗攻击和鲁棒优化研究提供了重要基础,但并未直接解决本文考虑的问题。在攻击方面,先前的工作研究了离散次模优化[1 (https://arxiv.org/html/2606.11804#bib.bib45),12 (https://arxiv.org/html/2606.11804#bib.bib78)]和一般非凸极小极大公式[25 (https://arxiv.org/html/2606.11804#bib.bib44)]的对抗样本生成。然而,这些方法并未显式地建模本文所考虑的连续汇总问题中出现的连续性、DR次模性和mm弱单调性的组合,也未专注于生成一个同时攻击多个汇总模型的共享扰动。在防御方面,鲁棒次模优化已针对集函数、单调连续模型和一般非凸鲁棒公式[20 (https://arxiv.org/html/2606.11804#bib.bib47),11 (https://arxiv.org/html/2606.11804#bib.bib8),13 (https://arxiv.org/html/2606.11804#bib.bib7),25 (https://arxiv.org/html/2606.11804#bib.bib44)]进行了研究。然而,这些方法并未显式地解决混合相似度级别攻击类型下弱单调DR次模汇总模型的鲁棒保护问题。因此,连续汇总的攻击和防御机制仍未被充分理解,特别是从可信AI管道中下游可靠性的角度。  

在本文中,我们研究了上游相似性结构扰动下连续数据汇总的对抗脆弱性和鲁棒保护。攻击者不是直接修改最终的汇总决策,而是扰动定义汇总目标的相似性矩阵。这种相似性级别的威胁模型捕捉了可信AI管道中的上游攻击面,其中降级的摘要可能影响传递给下游模块的代表性信息。为了解决这一问题,我们开发了一个DR次模优化框架,用于多目标攻击生成和鲁棒防御,并在真实数据的多线性扩展汇总和受控聚类多目标基准上进行了评估。前者在真实数据上测试了与理论一致的目标,后者则提供了一个可解释的设置,用于通过已知的簇和代表性结构分析攻击机制和下游后果。  

**贡献。** 本文的主要贡献总结如下。  

- • 我们为一类多分辨率图像汇总目标提供了DR次模公式。具体来说,我们证明在受控冗余条件下,相应的离散效用是非负的、次模的且mm弱单调的,并且其多线性扩展保持了非负性、DR次模性和弱单调性。  
- • 我们为连续数据汇总引入了一个相似性级别的威胁模型,其中攻击者扰动上游相似性结构,而不是直接修改最终的汇总决策。在该模型下,我们将数据汇总的多目标攻击生成建模为一个结构化的极小极大优化问题,并开发了一种结构感知的近似算法,用于在多个目标汇总模型之间构建一个共享的扰动。  
- • 我们将针对可允许的相似性级别扰动的鲁棒防御建模为一个正则化的极大极小优化问题。我们为mm弱单调的DR次模目标开发了一种鲁棒连续梯度上升算法,并在标准平滑性下建立了近似保证。  
- • 我们在真实数据的多线性扩展汇总和一个受控聚类多目标基准上进行了实证评估。结果表明,优化的相似性扰动可以在代表性预算区间内引起可衡量的汇总退化。下游评估进一步表明,这种退化可以转化为任务级别的性能损失,并且鲁棒摘要可以通过恢复类/簇覆盖来恢复下游可靠性。这些发现将对抗性汇总与可信AI管道的可靠性联系起来。  

## II. 相关工作  

本节回顾先前与次模设置中的对抗攻击生成和鲁棒优化相关的工作,重点关注它们与安全数据处理和可信AI的相关性。  

### II-A 具有次模结构的攻击生成  

攻击生成已在若干优化和安全相关设置中得到研究,其中次模结构被用于建模扰动、选择或退化效应中的递减回报。在直流微电网中,Liu等人[15 (https://arxiv.org/html/2606.11804#bib.bib5)]利用次模结构,通过利用系统状态误差的次模性来构造虚假数据注入攻击。Zhu等人[29 (https://arxiv.org/html/2606.11804#bib.bib3)]研究了通过边扰动来削弱网络鲁棒性的攻击,并使用贪婪优化来处理鲁棒性相关目标。在文本分类中,Lei等人[12 (https://arxiv.org/html/2606.11804#bib.bib78)]表明,攻击某些神经模型的扰动搜索空间表现出次模性,从而允许将攻击生成公式化为一个次模优化问题。与我们设置更接近的是,Adibi等人[1 (https://arxiv.org/html/2606.11804#bib.bib45)]研究了凸-次模极小极大优化,并为离散次模攻击生成以及单调集次模函数的多线性扩展获得了理论保证。在另一个方向上,Wang等人[25 (https://arxiv.org/html/2606.11804#bib.bib44)]从一般非凸极小极大优化的角度考虑了对抗攻击生成,并分析了向驻点解的收敛性。这些工作为研究结构化优化问题中的对抗脆弱性提供了重要基础。然而,它们并未显式地解决本文所考虑的设置,其中攻击目标由多个具有DR次模性和mm弱单调性的连续汇总模型组成,并且目标是构建一个同时削弱几个目标汇总模型的单一扰动。我们的工作与这些研究方向互补,专注于连续数据汇总的对抗鲁棒性评估,这是可信AI管道中的一个安全相关组件。  

### II-B 鲁棒次模优化  

鲁棒次模优化已在多个重要应用领域得到研究,包括观测选择[9 (https://arxiv.org/html/2606.11804#bib.bib63)]和影响最大化[6 (https://arxiv.org/html/2606.11804#bib.bib60),7 (https://arxiv.org/html/2606.11804#bib.bib61)]。这些工作通常考虑最大化一族次模集函数上的最坏情况值。另一个相关的研究方向研究了对抗非凸环境中的鲁棒优化,其中问题被建模为非凸-凹鞍点问题,并通过利用与连续次模性的联系[20 (https://arxiv.org/html/2606.11804#bib.bib47)]来求解,并扩展到安全博弈[26 (https://arxiv.org/html/2606.11804#bib.bib64)]和分布鲁棒设置[21 (https://arxiv.org/html/2606.11804#bib.bib62)]。对于连续次模优化,Lee等人[11 (https://arxiv.org/html/2606.11804#bib.bib8)]研究了非光滑和Hölder光滑次模最大化,并推导了可用于鲁棒公式的近似保证。Lian等人[13 (https://arxiv.org/html/2606.11804#bib.bib7)]通过求解一个非光滑上凹优化问题,提出了一种用于鲁棒DR次模最大化的零阶近似算法。Wang等人[25 (https://arxiv.org/html/2606.11804#bib.bib44)]也在一个一般非凸设置中考虑了针对混合对抗攻击的鲁棒优化,但所得保证以驻点解的形式给出。这些工作与我们的防御问题密切相关,但它们并未显式地解决混合攻击类型下具有mm弱单调性的连续DR次模汇总模型的鲁棒保护问题。我们的工作通过研究可信AI管道中上游数据汇总组件的鲁棒保护来扩展这一文献,其中对抗扰动可能同时影响多个目标汇总模型。  

表I (https://arxiv.org/html/2606.11804#S2.T1) 总结了与我们攻击和防御公式相关的代表性理论框架。该表格旨在澄清建模假设和保证类型方面的差异;它不是一个实证基线列表,因为多种方法依赖于单调性或单目标公式,因此不能直接应用于我们的弱单调多目标汇总设置。  

**表I:与攻击生成和鲁棒防御相关的代表性优化框架定位。**  

| 参考文献 | 角色 | 模型设置 | 连续 | 多目标/混合 | 保证 | 与本文关系 |
| :--- | :--- | :--- | :--- | :--- | :--- | :--- |
| [1 (https://arxiv.org/html/2606.11804#bib.bib45)] | 攻击 | 集合次模,单调 | 否 | 否 | \(1-1/e\)-近似 | 离散,单目标 |
| [1 (https://arxiv.org/html/2606.11804#bib.bib45)] | 攻击 | 多线性扩展,单调 | 是 | 否 | \(1/2\)-近似 | 连续但单调且单目标 |
| [25 (https://arxiv.org/html/2606.11804#bib.bib44)] | 攻击 | 一般非凸极小极大 | 是 | 是 | 驻点 | 基线,无DR次模 |

相似文章

通过人类反馈学习总结

OpenAI Blog

OpenAI展示了一种通过在人类偏好上训练奖励模型并使用强化学习微调模型来改进语言模型总结的技术,实现了在数据集间具有良好泛化性能的显著质量提升。这项工作通过大规模人类反馈推进了模型对齐,并具有超越总结任务的应用前景。