模糊 ARTMAP 中的流式对抗鲁棒性:机制对齐评估、渐进式训练及可解释诊断
摘要
本文通过引入与机制对齐的白盒攻击代理 WB-Softmax,研究了流式神经架构模糊 ARTMAP 中的对抗鲁棒性。本文评估了渐进式训练和选择性更新策略,以在不进行数据重放的情况下提高鲁棒性,同时为结构性失效提供可解释的诊断。
查看缓存全文
缓存时间: 2026/05/11 07:03
# Fuzzy ARTMAP 中的流式对抗鲁棒性:机制对齐评估、渐进式训练与可解释诊断
来源: https://arxiv.org/html/2605.06902
###### 摘要
尽管对抗鲁棒性在离线深度网络中得到了广泛研究,但关于攻击、防御以及可靠性信号在通过严格单次扫描(single-pass)流式更新进行学习的神经网络中的表现,目前知之甚少。本文在 Fuzzy ARTMAP 中研究了这一问题。Fuzzy ARTMAP 是一种自适应共振理论(Adaptive Resonance Theory, ART)架构,其决策由“赢家通吃”(winner-take-all)的类别竞争、互补编码(complement coding)、匹配追踪(match tracking)以及无回放(replay-free)的原型更新所支配。我们引入了 WB-Softmax,这是一种可微分的白盒攻击代理,与 ARTMAP 的类别竞争和映射场预测机制相一致;同时,我们形式化了一项流式评估原则,要求对最终部署模型的鲁棒性进行评估,而非针对陈旧的中间状态。我们进一步考察了在流式兼容协议选择下的无回放对抗训练,包括离线与在线攻击生成、选择性更新以及渐进式训练。在四个图像基准测试中,WB-Softmax 提供了一个强大的自适应白盒评估器,在评估的基准测试中对普通 Fuzzy ARTMAP 模型实现了 89%–100% 的攻击成功率。我们发现,在不同评估协议下,防御排名可能发生逆转:离线对抗训练在迁移攻击下可能表现强劲,但在自适应白盒评估下却会崩溃,而渐进式两阶段选择性训练则实现了最强的整体无回放鲁棒性。最后,我们表明 ART 显式的类别几何结构支持对结构和可靠性故障进行可解释的诊断,包括*分离崩溃*(separation collapse)——一种在对抗适应过程中不同类别的类别变得日益重叠的故障模式——以及选择性对抗训练后匹配得分排序的逆转。这些结果建立了一个针对流式基于原型的学习者的机制对齐、协议感知的对抗鲁棒性框架。
###### 关键词: 自适应共振理论, Fuzzy ARTMAP, 对抗鲁棒性, 对抗训练, 增量学习
††期刊: Neural Networks
\affiliation \[inst1\]organization=电气与计算机工程系, addressline=密苏里科技大学, city=Rolla, state=MO, country=USA
\affiliation \[inst2\]organization=Kummer 人工智能与自主系统研究所 (KICAIAS), addressline=密苏里科技大学, city=Rolla, state=MO, country=USA
\affiliation \[inst3\]organization=数字大都会研究所, 北里约格兰德联邦大学, addressline=Natal, RN 59078-900, country=Brazil
## 1 引言
对抗鲁棒性现在是神经学习系统的核心要求,然而现有的大多数方法论都假设模型是离线训练的,并且可以重复访问历史数据。这一假设给必须单次扫描学习、在线更新其决策结构且无法使用回放的流式神经架构留下了巨大的空白。在这样的系统中,对抗鲁棒性不仅仅是扰动大小或攻击强度的问题;它还取决于对抗样本生成的时机、它们针对的是哪个演化中的模型状态,以及适应后内部可靠性信号是否仍然有意义。
自对抗样本首次被记录\[39 (https://arxiv.org/html/2605.06902#bib.bib22)\]以来,大量文献开发了更强的攻击、鲁棒训练方法和评估协议\[18 (https://arxiv.org/html/2605.06902#bib.bib23),25 (https://arxiv.org/html/2605.06902#bib.bib24),8 (https://arxiv.org/html/2605.06902#bib.bib25),40 (https://arxiv.org/html/2605.06902#bib.bib5),14 (https://arxiv.org/html/2605.06902#bib.bib30),1 (https://arxiv.org/html/2605.06902#bib.bib31),43 (https://arxiv.org/html/2605.06902#bib.bib61)\]。这些文献还强调了梯度掩蔽等陷阱以及强大自适应评估的必要性\[2 (https://arxiv.org/html/2605.06902#bib.bib29),41 (https://arxiv.org/html/2605.06902#bib.bib6)\],而 RobustBench 和最近的综述有助于标准化经验鲁棒性报告并整理更广泛的对抗学习领域\[13 (https://arxiv.org/html/2605.06902#bib.bib32),34 (https://arxiv.org/html/2605.06902#bib.bib18),44 (https://arxiv.org/html/2605.06902#bib.bib55)\]。然而,这些研究仍然集中在允许重复访问历史数据的离线训练上。特别是,对抗训练和鲁棒性评估通常假设对同一数据集进行重复优化或重复访问先前样本,这些假设在严格的单次扫描流式环境中并不成立。
最近的工作开始考察持续学习(continual learning)与对抗鲁棒性的交集\[22 (https://arxiv.org/html/2605.06902#bib.bib41),32 (https://arxiv.org/html/2605.06902#bib.bib40),15 (https://arxiv.org/html/2605.06902#bib.bib17)\]。同时,更广泛的持续学习文献依赖于回放、情景记忆、排练、蒸馏或其他形式的重复优化\[23 (https://arxiv.org/html/2605.06902#bib.bib7),24 (https://arxiv.org/html/2605.06902#bib.bib8),11 (https://arxiv.org/html/2605.06902#bib.bib9),35 (https://arxiv.org/html/2605.06902#bib.bib10)\]。现有的鲁棒持续学习方法同样通常依赖于回放、正则化或记忆增强训练\[29 (https://arxiv.org/html/2605.06902#bib.bib57),3 (https://arxiv.org/html/2605.06902#bib.bib43)\]。这些机制在其预期设置中很有价值,但难以与严格的单次扫描流式处理协调,因为在后者中,每个样本只处理一次然后就被丢弃。因此,目前的持续鲁棒性文献大多解决的是带有记忆的鲁棒持续学习问题,而不是在真正流式模型所要求的无回放约束下的鲁棒性问题。
自适应共振理论(ART)网络\[19 (https://arxiv.org/html/2605.06902#bib.bib36),36 (https://arxiv.org/html/2605.06902#bib.bib2),4 (https://arxiv.org/html/2605.06902#bib.bib59)\]为研究这一差距提供了一个特别重要的环境。ART 网络是为稳定的增量学习而设计的,Fuzzy ARTMAP 仍然是用于单次扫描分类的最成熟的监督 ART 架构之一。与传统深度网络不同,Fuzzy ARTMAP 通过显式的类别竞争和映射场分配进行预测,而学习过程则通过匹配追踪、类别创建和快速原型更新进行。这些机制使得直接从内部类别几何结构中诊断鲁棒性故障成为可能,但也使得标准的深度网络对抗评估不再足够。
Fuzzy ARTMAP\[9 (https://arxiv.org/html/2605.06902#bib.bib38)\]作为 ART 的监督变体,尤为相关,因为它通过互补编码、匹配追踪和显式的映射场监督支持增量分类。最近的工作通过模块化软件实现\[28 (https://arxiv.org/html/2605.06902#bib.bib54)\]、深层分层扩展\[26 (https://arxiv.org/html/2605.06902#bib.bib51)\]、受 ART 动力学启发的无梯度深度学习公式\[33 (https://arxiv.org/html/2605.06902#bib.bib52)\]以及对匹配追踪机制引发的计算权衡分析\[27 (https://arxiv.org/html/2605.06902#bib.bib53)\]扩展了 ART 生态系统。最近关于基于原型或非标准模型的鲁棒性工作也考虑了超球面原型、判别原型学习器和度量学习视角\[31 (https://arxiv.org/html/2605.06902#bib.bib39),21 (https://arxiv.org/html/2605.06902#bib.bib20),37 (https://arxiv.org/html/2605.06902#bib.bib58),38 (https://arxiv.org/html/2605.06902#bib.bib16)\]。然而,这些研究并未解决 ARTMAP 特有的互补编码、赢家通吃类别竞争、快速单次类别更新以及显式基于匹配的内部得分的组合。这留下了一个独特的问题:在原生严格流式模式下,应如何定义、攻击、训练和解释 Fuzzy ARTMAP 中的对抗鲁棒性?
这项工作的初步版本发表在 IJCNN 2026 \[7 (https://arxiv.org/html/2605.06902#bib.bib4)\]上。本期刊版本将其从一项经验性鲁棒性研究扩展为一个更广泛的机制对齐框架,增加了形式化的最终模型流式评估原则、匹配得分反转的可靠性分析、基于几何的分离崩溃诊断、分离感知训练分析以及推导出的无条件鲁棒性结果。
这一差距不仅仅是经验性的。核心 ARTMAP 操作——赢家通吃类别竞争、互补编码和分段快速学习更新——使得标准基于梯度的白盒攻击与模型的实际预测机制严重不匹配。因此,除非攻击目标明确与 ARTMAP 的竞争和映射结构对齐,否则鲁棒性结论可能会产生误导。
第二个挑战特定于流式学习本身。在严格的单次扫描训练中,随着类别的创建、吸收或重置,类别边界不断演变。因此,针对早期模型快照生成的对抗样本相对于最终部署的分类器可能变得陈旧。在这项工作中,我们将这一威胁模型问题视为方法论问题,而不仅仅是实现细节:在流式学习者中,鲁棒性应使用针对最终状态精心设计的自适应攻击,对最终流式模型进行评估,而不是从陈旧的、仅迁移或部分对齐的扰动中推断得出。
这些问题也出现在 ARTMAP 之外。Fuzzy ARTMAP 是一个特别有信息量的测试平台,因为它结合了严格的单次扫描适应、显式的原型竞争、可解释的内部几何结构以及无回放学习。这使其非常适合研究一个更广泛的方法论问题:对于在部署期间决策边界连续演化的流式基于原型的学习者,应如何评估和改进对抗鲁棒性。
本文从三个相互耦合的视角研究流式 Fuzzy ARTMAP 中的对抗鲁棒性:评估、训练和可解释性。更具体地说,我们提出三个问题。首先,对于通过类别竞争和映射场分配形成预测的非可微分赢家通吃学习者,应如何定义自适应白盒攻击?其次,在严格的单次扫描无回放约束下,需要什么训练和评估协议才能避免由针对中间模型状态的陈旧攻击引起的鲁棒性高估?第三,ART 的显式类别几何结构能否不仅用于解释事后行为,还能在线诊断鲁棒性故障模式并促进针对性的无回放干预?最后一个问题也与部署可靠性有关:如果内部得分被重用用于拒绝、弃权或升级,那么它们的语义在对抗训练后必须保持有效,而不仅仅是在普通模式下\[12 (https://arxiv.org/html/2605.06902#bib.bib12),16 (https://arxiv.org/html/2605.06902#bib.bib13),17 (https://arxiv.org/html/2605.06902#bib.bib14),20 (https://arxiv.org/html/2605.06902#bib.bib15)\]。
为了回答这些问题,我们结合了三种方法论组件。首先,我们开发了 WB-Softmax,这是一种可微分的 softmax 松弛,将类别级的选择值聚合为与 ARTMAP 映射场一致的类级得分,从而实现强大的自适应白盒评估。其次,我们在流式更新下区分了离线和在线对抗样本生成,并在相同的无回放设置下比较了标准、选择性和渐进式两阶段训练规则。第三,我们利用 ART 的显式类别几何结构,通过 iCVI 监控和基于重叠的诊断来识别结构故障模式;我们提出了一种分离感知更新规则作为由这些诊断激励的第一个具体干预措施,并描述了其操作行为,包括仅基于重叠门控的结构局限性。
综上所述,这些组件定义了一个针对严格流式学习者的机制对齐、协议感知和可解释性驱动的对抗鲁棒性框架。
我们的贡献有三方面。首先,我们为流式基于原型的神经学习者中的对抗鲁棒性建立了一个机制对齐的评估框架,并在 Fuzzy ARTMAP 中实例化。该框架包括 WB-Softmax,这是一种与 ARTMAP 的类别竞争和映射场结构一致的白盒攻击目标,以及一项最终模型流式评估原则,要求对部署的流式模型而非陈旧的中间状态进行鲁棒性评估。经验上,我们表明 WB-Softmax PGD 提供了一个强大的自适应评估器,在评估的基准测试中对普通 Fuzzy ARTMAP 模型实现了 89%–100% 的攻击成功率,并且在匹配预算下始终超过基于迁移和查询的基线。
其次,我们表明无回放鲁棒性是一种协议属性,而不仅仅是攻击强度属性。离线对抗训练在迁移评估下可能显得有效,但在自适应白盒评估下却会崩溃,而渐进式两阶段选择性训练在 USPS、MNIST、Fashion-MNIST 和 EMNIST-Letters 上提供了最强的整体无回放鲁棒性。
第三,我们表明 ART 的内部几何结构提供了不仅仅是事后可解释性的功能:它支持在线诊断结构和语义可靠性故障。几何监控揭示了*分离崩溃*,即由对抗适应引起的跨类几何分离的逐步丧失,而匹配得分分析揭示了匹配得分反转,表明在普通模型上校准的内部信任信号在对抗适应后可能变得不可靠。
本文其余部分组织如下。第 2 节回顾 Fuzzy ARTMAP 背景。第 3 节形式化单次扫描流式鲁棒性的威胁模型和评估协议。第 4 节介绍攻击套件,包括提出的 WB-Softmax 自适应白盒攻击和补充的黑盒迁移基线。第 5 节介绍用于流式 ARTMAP 的可解释诊断和无回放训练规则,包括基于几何的监控、匹配得分分析和分离感知训练。第 6 节描述实验设置。第 7 节报告结果和讨论。第 8 节总结全文并概述未来方向。附录提供了命题 1 的构造性证明以及与正文中报告的条件清洁正确评估对应的无条件鲁棒性表。
## 2 背景
Fuzzy ART\[10 (https://arxiv.org/html/2605.06902#bib.bib37)\]将自适应共振理论扩展到连续值输入。给定输入特征向量 $\bm{x} \in [0,1]^d$,互补编码形成 $\bm{I}(\bm{x}) = [\bm{x}; \,\bm{1}-\bm{x}] \in [0,1]^{2d}$, (1)
使得编码输入 $\bm{I}(\bm{x})$ 具有恒定的 $L^1$ 范数:
$$ \|\bm{I}(\bm{x})\| = \sum_{i=1}^{d} x_i + \sum_{i=1}^{d} (1-x_i) = d. \quad (2) $$
这里 $\|\bm{v}\| = \|\bm{v}\|_1 = \sum_{i} v_i$ 对于 $\bm{v} \in [0,1]^m$。这种归一化很重要相似文章
测试对未知对手的鲁棒性
# 测试对未知对手的鲁棒性 来源:[https://openai.com/index/testing-robustness/](https://openai.com/index/testing-robustness/) OpenAI 我们开发了一种方法来评估神经网络分类器是否能可靠地抵御训练期间未见过的对抗性攻击。我们的方法产生了一个新的指标 UAR(未知攻击鲁棒性),它评估单个模型对意外攻击的鲁棒性,并强调了需要在更多样化的未知攻击范围内测量性能
鲁棒对抗性输入
研究人员展示了对抗性图像,这些图像能够在多个尺度和视角下可靠地欺骗神经网络分类器,这对自动驾驶汽车所使用的多尺度图像捕捉系统的鲁棒性假设提出了挑战。
不同扰动类型之间对抗鲁棒性的迁移
# 不同扰动类型之间对抗鲁棒性的迁移 来源: [https://openai.com/index/transfer-of-adversarial-robustness-between-perturbation-types/](https://openai.com/index/transfer-of-adversarial-robustness-between-perturbation-types/) OpenAI## 摘要 我们研究深度神经网络在不同扰动类型之间的对抗鲁棒性迁移。虽然大多数关于对抗样本的工作专注于L∞L\_∞和L2L\_2有界扰动,但这些并不能捕捉所有t
TASER:面向几何驱动鲁棒性的任务感知Stein正则化
介绍了TASER,一种从Langevin Stein算子导出的训练时正则化框架,它鼓励预测器与数据密度之间的几何兼容性,提高了CIFAR-10上的对抗鲁棒性和稳定性,而不会显著降低干净准确率。
神经网络策略的对抗性攻击
OpenAI 研究人员展示了对抗性攻击(先前在计算机视觉中研究过)对强化学习中的神经网络策略也同样有效,即使在白盒和黑盒设置中进行微小的难以察觉的扰动也会导致显著的性能下降。