当规则违反罕见时:逻辑异常检测的奇美拉训练

arXiv cs.LG 论文

摘要

本文介绍了奇美拉训练(Chimera Training),这是一种用于逻辑异常检测的方法,通过在特征层面进行反事实构建来训练神经规则评估器,无需真实的异常图像,从而在CLEVRER、OpenImages和VidOR等基准测试上提升了规则级异常检测性能。

arXiv:2605.26171v1 公告类型:新论文 摘要:许多实际异常不仅仅是罕见输入,而是语义约束的违反:物体以结构化方式共现,动作隐含前提条件,事件满足时间或关系规律性。我们在这种情况下研究异常检测,其中约束以逻辑规则的形式给出,这些规则基于学习到的视觉概念,但真实规则违反在训练期间罕见或不存在。我们提出了一种神经规则评估器,将每条约束编译成有向无环图,并为其内部逻辑运算符学习特征感知的子树MLP门控单元。每个门控单元将子特征和边级否定映射到父表示和规则满足概率,并通过基于真实概念标签的精确布尔传播获得中间监督。关键困难在于,同一图像训练数据往往无法充分覆盖信息性的真值配置,并且允许捷径解。为了解决这个问题,我们引入了奇美拉训练:在特征层面进行操作数级的反事实构建。我们不混合输入图像,而是拼接来自不同样本的子树特征;每个操作数保留其来源样本的硬真值标签,奇美拉目标通过将节点的逻辑运算符应用于这些继承标签而获得。这提供了有监督的逻辑反例,而不需要真实的异常图像。在CLEVRER、OpenImages和VidOR上,所得到的评估器在规则级异常AUROC上优于独立事件和同图像语义训练基线,尤其是对于组合规则和关系规则。该方法同时输出标量异常分数和规则级归因。
查看原文
查看缓存全文

缓存时间: 2026/05/27 09:04

# 当规则违反罕见时:用于逻辑异常检测的奇美拉训练
来源: https://arxiv.org/html/2605.26171

1st Alejandro Ascárate a\.ascaratecastro@hdr\.qut\.edu\.au
School of Electrical Engineering and Robotics, Faculty of Engineering, −Queensland\-\\;\\,\\,\\,\\text\{Queensland\}University of Technology, Brisbane, Queensland, Australia

3rd Rodrigo Santa Cruz∗ rodrigo\.santacruz@qut\.edu\.au
4th Clinton Fookes∗ c\.fookes@qut\.edu\.au
5th Olivier Salvado∗ olivier\.salvado@qut\.edu\.au

###### 摘要

许多实际异常不仅仅是罕见输入,而是对语义约束的违反:物体以结构化方式共现,动作意味着前提条件,事件满足时间或关系规律。我们研究在这种设置下的异常检测,其中约束以逻辑规则的形式出现,这些规则基于习得的视觉概念,但在训练期间真实规则违反很少或不存在。我们提出一种神经规则评估器,它将每个约束编译成有向无环图,并学习内部逻辑运算符的特征感知子树MLP门控。每个门控将子节点特征和边级否定映射到父节点表示和规则满足概率,并通过在真实概念标签上进行精确布尔传播获得中间监督。关键难点在于,同图训练数据通常无法提供足够覆盖范围的信息性真值配置,还会允许捷径解决方案。为了解决这个问题,我们引入了奇美拉训练:在特征层面进行操作数级的反事实构造。我们不混合输入图像,而是连接来自不同样本的子树特征;每个操作数保留其来源样本的硬真值标签,奇美拉目标通过将节点逻辑运算符应用于这些继承标签获得。这提供了监督式的逻辑反例,无需真实异常图像。在CLEVRER、OpenImages和VidOR上,相较于独立事件和同图语义训练基线,该评估器在规则级异常AUROC上取得提升,尤其对于组合和关系规则。该方法同时输出标量异常分数和规则级归因。

## 1 引言

参见图1:我们提出方法的训练和推断。第一阶段训练分类器。丢弃头部,仅使用骨干网络的特征。每个节点逻辑规则需要使用特定模型(阶段2)进行学习。节点规则的骨干可用于学习更复杂的表达式(阶段3)。一旦逻辑表达式(例如逻辑“与”)被学得,可以冻结并组装成更复杂的规则(替代阶段3)。在推断阶段(阶段4),将冻结的操作和分类器骨干应用于新图像以应用规则。输出可用于异常检测或从图像属性进行逻辑推断。

从数据集中检测异常通常被框架化为统计检测:检测异常点、数据分布外的样本(分布外,OOD)[Chandola等人,2009 (https://arxiv.org/html/2605.26171#bib.bib1);Hendrycks和Gimpel,2017 (https://arxiv.org/html/2605.26171#bib.bib2);Ruff等人,2021 (https://arxiv.org/html/2605.26171#bib.bib3)]。相反,我们关注的是基于样本打破初始分布通常满足的已知规则来检测异常样本。这种逻辑异常检测方法通常需要检测和/或学习所有可能的逻辑情况。我们本文中的新方法描述了一种无需识别所有逻辑情况的方法,因此当训练数据集仅包含与规则一致的样本(缺少异常情况)时,仍能检测规则是否被违反。这是异常检测问题的关键区别点。相比而言,完全监督的二元分类需要访问异常的训练样本,而异常样本通常罕见且数量不足。使用经典的MNIST数字分类简单例子,我们的方法可以检测所有标记为“7”但看起来像“1”的样本(见图2 (https://arxiv.org/html/2605.26171#S1.F2))。应用于自然图像时,可以识别标记为“(女)人”的图像中的所有非典型呈现,如图3 (https://arxiv.org/html/2605.26171#S1.F3)(来自OpenImages数据集)所示。更复杂的“规则”只要可以表示为能用适当模型估计的属性函数,就能被学习。我们展示了来自基本运动形状视频的因果规则示例,如“碰撞(形状=球体,颜色=红色)⟹碰撞\_在前\_半\_视频\\text\{collide\}\(\\text\{shape=sphere\},\\text\{color=red\}\)\\implies\\text\{collide\\\_before\\\_half\\\_of\\\_video\}”(使用CLEVRER数据集),以及视频中复杂变化场景的现实规则,如“obj:婴儿⟹(rel:婴儿\_在\_前面\_of\_成人∧rel:成人\_看\_婴儿)\\text\{obj:baby\}\\implies\(\\text\{rel:baby\-in\\\_front\\\_of\-adult\}\\wedge\\text\{rel:adult\-watch\-baby\}\)”(使用VidOR数据集)。

参见图2:基于规则1∧71\\wedge 7的得分排序的MNIST测试图像,仅限于真实数字77样本。图像按学习到的合取分数P^\(1∧7\)\\widehat\{P\}\(1\\wedge 7\)升序排列;高分示例对应于非典型的77,其笔画几何也激活了数字11的evidence。

参见图3:OpenImages矛盾规则A⇔¬A\{A\\Leftrightarrow\\neg A\}的定性可视化结果。在该实验中,异常分数是模型对矛盾规则本身的输出(非1−p1\-p)。独立事件仅基于初始分类器的logits计算,而奇美拉训练版本为规则训练一个MLP门控,同时在特征层面引入不真实数据中出现的合成矛盾示例。对于固定测试类,我们按异常分数排序样本,左边显示10个最小,右边显示10个最大。虽然所有显示的图像共享相同的数据集标签,但高分数样本在视觉上更扭曲、更不具原型性。奇美拉产生了更清晰的分割,倾向于将更正常的实例放在左边,更异常的放在右边,这表明合成矛盾监督有助于评估器更有效地检测类内视觉异常。上面板,规则为‘男人⇔¬男人\{\text\{man\}\\Leftrightarrow\\neg\\,\\text\{man\}\}’;下面板,规则为‘女人⇔¬女人\{\text\{woman\}\\Leftrightarrow\\neg\\,\\text\{woman\}\}’。

因此,许多异常场景更好的刻画方式不仅限于像素(甚至潜在空间)的“稀缺性”,而是违反*领域约束*:物体以结构化方式共现;动作意味着前提条件;关系满足逻辑规律。如果这些约束可用(手工编写、挖掘或策划),它们可以作为语义上有意义的检测接口:输入如果与一个或多个约束矛盾则为异常。然而,将约束评估与高维感知集成并非易事。完全符号化流水线需要脆弱的感知输出;完全神经化流水线通常隐式地重新学习约束并将其与虚假线索纠缠。本文提出一种神经符号异常检测框架,将约束视为*显式计算图*(例如,二叉树),并学习可复用的*神经算子*(我们称之为‘门控’),用于实现逻辑组合。该方法在论文其余部分称为‘神经评估器’(见图1 (https://arxiv.org/html/2605.26171#S1.F1))。一个核心挑战是防止门控坍塌成整个规则的捷径分类器(例如,直接从图像特征识别异常模板)。我们通过*‘奇美拉’¹ 负面训练*来解决这个问题(见图1 (https://arxiv.org/html/2605.26171#S1.F1)及第3节 (https://arxiv.org/html/2605.26171#S3))。这种构造在概念上与mixup式干预相关[Zhang等人,2018 (https://arxiv.org/html/2605.26171#bib.bib6);Yun等人,2019 (https://arxiv.org/html/2605.26171#bib.bib7)],但作用于*子树操作数*层面,而非原始像素或标签。实验上,这促使门控表现为组合算子,并改进学得的子树在约束间的迁移。此外,对于许多规则,在自然数据分布下信息性反例极其罕见(例如,蕴含违反要求前件真而后件假)。因此,仅在真实观测样本上训练全局预测器只会产生退化解(见表2 (https://arxiv.org/html/2605.26171#S5.T2)的‘SEM’)。

¹ 维基百科-奇美拉_(神话) (https://en.wikipedia.org/wiki/Chimera_(mythology))

##### 贡献。
- • 我们提出*子树门控*,一种自底向上的节点局部学习评估器,将概念条件特征在硬布尔监督下组合成真值概率。
- • 我们引入*奇美拉负面训练*,以强制算子级组合性,减少规则评估器中的捷径学习,并在训练数据完全缺乏规则真实反事实的情况下运行(大多数异常检测的实际应用)。
- • 我们在结构化图像/视频基准和真实世界数据(CLEVRER、OpenImages、VidOR)上展示了有效性。

## 2 相关工作

##### 深度异常和OOD检测
大量工作使用密度或重建替代(例如,自编码器/VAE)、特征距离标准或不确定性估计来评分异常[Chandola等人,2009 (https://arxiv.org/html/2605.26171#bib.bib1);Ruff等人,2021 (https://arxiv.org/html/2605.26171#bib.bib3)]。在现代深度OOD检测中,常见基线包括softmax置信度[Hendrycks和Gimpel,2017 (https://arxiv.org/html/2605.26171#bib.bib2)]、输入扰动和温度缩放[Liang等人,2018 (https://arxiv.org/html/2605.26171#bib.bib9);Guo等人,2017 (https://arxiv.org/html/2605.26171#bib.bib4)],以及特征空间检测器如马氏距离[Lee等人,2018 (https://arxiv.org/html/2605.26171#bib.bib10)]。基于能量的评分也作为某些分类模型的统一视角出现[Liu等人,2020 (https://arxiv.org/html/2605.26171#bib.bib11)]。这些方法通常提供标量分数,但语义归因有限:它们很少解释*哪个*结构化期望被违反。

##### 语义和约束感知的异常检测
一条互补线索利用结构、约束或知识来检测不可信样本。基于约束和逻辑引导的学习通常对规则违反施加惩罚,或鼓励输出满足已知关系[Hu等人,2016 (https://arxiv.org/html/2605.26171#bib.bib12);Xu等人,2018 (https://arxiv.org/html/2605.26171#bib.bib13)]。相关思想出现在弱监督和知识驱动场景中,其中符号约束正则化预测器而不需要完整标签[Ganchev等人,2010 (https://arxiv.org/html/2605.26171#bib.bib14)]。虽然有效,但许多方法将约束视为全局正则化器,并不显式构建实现逻辑组合且可跨多条规则迁移的可复用*模块*。

##### 神经符号推理与可微逻辑
神经符号方法旨在结合亚符号感知与符号推理,包括可微逻辑框架和概率逻辑编程[d’Avila Garcez等人,2009 (https://arxiv.org/html/2605.26171#bib.bib15);Manhaeve等人,2018 (https://arxiv.org/html/2605.26171#bib.bib16);Donadello等人,2017 (https://arxiv.org/html/2605.26171#bib.bib17)]。在视觉与语言以及合成推理基准(例如,CLEVR)中,神经模块网络和相关组合模型根据显式程序或图结构组装学得的操作符[Andreas等人,2016 (https://arxiv.org/html/2605.26171#bib.bib18);Johnson等人,2017b (https://arxiv.org/html/2605.26171#bib.bib19)]。这些工作激发了我们将约束编译成显式计算图的设计选择。然而,这类文献大多针对问答或程序执行而非异常检测;并且许多方法端到端学习操作符,缺乏机制来(i)从真实概念监督中间真值语义,(ii)防止内部节点的捷径学习,(iii)处理标准监督拟合中高度不平衡的训练数据,以及(iv)跨规则集和运行安全地复用学得的子树。

##### 概念瓶颈与可解释接口
概念瓶颈模型(CBM)和相关“预测-然后-推理”流水线通过人类对齐的概念提供可解释的中间表示[Koh等人,2020 (https://arxiv.org/html/2605.26171#bib.bib5)]。我们的叶子概念库在精神上类似:它为下游推理暴露语义有意义的接口。与在概念预测之上应用固定符号推理器(或浅层分类器)的标准CBM流水线不同,我们学习一个*结构化评估器*,它将概念条件特征通过约束DAG映射,产生每条规则的满足概率和异常归因。

##### 组合正则化与反事实混合
数据混合策略如mixup和CutMix通过构建插值或修补示例来提高鲁棒性[Zhang等人,2018 (https://arxiv.org/html/2605.26171#bib.bib6);Yun等人,2019 (https://arxiv.org/html/2605.26171#bib.bib7)]。我们的*奇美拉负面训练*在创建反事实组合方面相关,但在位置和监督上不同:我们混合*子树操作数*(子特征)而非原始输入,并使用从对应硬子真值计算出的精确布尔语义来监督目标。这推动内部门控实现预期的连接词,而非过拟合到特定规则的全局视觉模板。

##### 分类器神经代数(NAC)及类似方法,及其与我们的评估器的关系。
分类器神经代数(NAC;Santa Cruz等人[2018 (https://arxiv.org/html/2605.26171#bib.bib28)])(其他类似方法有[Misra等人,2017 (https://arxiv.org/html/2605.26171#bib.bib31);Nagarajan和Grauman,2018 (https://arxiv.org/html/2605.26171#bib.bib32);Yang等人,2020 (https://arxiv.org/html/2605.26171#bib.bib33);Li等人,2021 (https://arxiv.org/html/2605.26171#bib.bib34)])与我们工作在概念上最接近,它学习旨在实现布尔连接词的神经模块,并沿表达式树组合它们。然而,NAC组合分类器参数(例如,原始概念分类器的权重向量)来为组合表达式合成新分类器,并主要通过表达式级监督(整个组合概念标签)进行训练。

## 3 方法

### 3.1 问题设置、训练与推断

##### 问题设置
我们考虑一个多标签数据集D=\{\(xi,yi\)\}i=1M,yi∈\{0,1\}N,\\mathcal\{D\}=\\\{\(x\_\{i\},y\_\{i\}\)\\\}\_\{i=1\}^\{M\},\\qquad y\_\{i\}\\in\\\{0,1\\\}^\{N\},\(1\)其中yi,c=1y\_\{i,c\}=1表示概念cc存在于xix\_\{i\}中。我们被赋予规则\{Rr\}r=1R\\\{\\mathcal\{R\}\_\{r\}\\\}\_\{r=1\}^\{R\},每条规则编译为一个有向无环图Gr=\(Vr,Er\)G\_\{r\}=\(V\_\{r\},E\_\{r\}\),其叶子节点是概念I

相似文章

检测前沿推理模型中的不当行为

OpenAI Blog

OpenAI研究人员展示了思维链监控可以检测o3-mini等前沿推理模型中的不当行为,但警告说直接优化思维链来防止不良想法会导致模型隐藏意图,而不是消除行为。

用于零样本逻辑规则归纳的基础模型

Hugging Face Daily Papers

本文介绍了神经规则归纳器(NRI),这是一种用于零样本逻辑规则归纳的基础模型,它利用与领域无关的统计特性,无需重新训练即可跨任务进行泛化。