面向关系数据的异常检测

arXiv cs.LG 论文

摘要

本文介绍了RelAD,一个基于重构的框架,用于检测关系数据库中的异常,通过联合建模属性和关系边重构。在六个新基准上的大量实验表明,RelAD优于现有方法。

arXiv:2606.18621v1 公告类型:新 摘要:关系数据库广泛应用于现实系统中管理结构化数据。从这类关系数据中检测异常对于识别欺诈、风险和异常行为至关重要,但尚未得到充分探索。关键挑战在于关系数据的内在复杂性:多表属性高维且异构,使得稀疏的异常线索容易被正常或无关信息淹没;此外,异常还可能表现为跨不同外键关系的异常连接模式,而现有的表格和图异常检测方法难以捕捉这些模式。为解决这些问题,我们提出了RelAD,一个基于重构的框架,通过属性和关系边重构来捕捉异常。RelAD包含两个核心模块:条件稀疏门控属性重构,用于抑制冗余的多表属性并强调异常语义块;以及双视图多关系边重构,从内在和行为实体画像中检测特定关系的异常连接。最终通过一个轻量级融合模块整合属性和关系信号,生成异常分数。我们还构建了6个包含系统性异常的基准数据集,大量实验表明,RelAD在保持竞争力效率的同时,持续优于其他基线方法。
查看原文
查看缓存全文

缓存时间: 2026/06/18 05:44

# 面向关系数据的异常检测
来源:https://arxiv.org/html/2606.18621

Shiyuan Li Griffith University shiyuan\.li@griffith\.edu\.au&Yunfeng Zhao Guangxi University yunf\.zhao@st\.gxu\.edu\.cn&Yue Tan Griffith University yue\.tan@griffith\.edu\.au&Qingfeng Chen Guangxi University qingfeng@gxu\.edu\.cn&Yixin Liu∗ Griffith University yixin\.liu@griffith\.edu\.au&Shirui Pan Griffith University s\.pan@griffith\.edu\.au

###### 摘要
关系数据库在现实系统中广泛用于管理结构化数据。从这类关系数据中检测异常对于识别欺诈、风险和异常行为至关重要,但这一领域仍未得到充分探索。关键挑战在于关系数据的内在复杂性:多表属性具有高维度和异质性,使得稀疏的异常线索容易被正常或无关信息淹没;而异常还可能表现为跨不同外键关系的异常连接模式,现有的表格和图异常检测方法难以捕捉这些模式。为了解决这些问题,我们提出了RelAD,一个基于重构的框架,它从属性和关系边重构两方面捕捉异常。RelAD包含两个核心模块:条件稀疏门控属性重构,它抑制冗余的多表属性并强调异常语义块;以及双视图多关系边重构,它从内在实体画像和行为实体画像中检测特定于关系的异常连接。最终通过轻量级融合模块整合属性与关系信号,得出最终异常分数。我们还构建了6个包含系统性异常的基准数据集,大量实验表明,RelAD在保持有竞争力效率的同时,始终优于其他基线方法。

## 1 引言
关系数据库被广泛用作现实应用中结构化数据的主要存储抽象,例如金融风险控制、电子商务和工业运营监控等场景(Robinson等,2024a;Dwivedi等,2025)。与单表数据不同,关系数据库通过主键–外键关系将信息组织到多个互连的表中,对实体之间的丰富结构和时间依赖关系进行建模。例如,在风控系统中,一个用户不仅关联目标表中的属性(如年龄、地区、注册时间),还关联相关实体(如产品、设备、交易记录和访问记录)中的属性(Dwivedi等;Chen等,2025b)。由于真实业务系统中的异常行为自然可能隐藏在这种多表依赖关系中,因此从关系数据库中检测这些异常实体对于欺诈检测、风险预警和异常行为发现至关重要(示例见图1a)。最近的关系深度学习(RDL)研究已开发出有效的范式,通过将关系数据库视为异构图,并对跨互连表的实体及其关系进行表示学习(Robinson等,2024a;Ranjan等;Wang等,2025)。然而,如何从关系数据中识别异常实体——本文称之为关系异常检测(RAD)——仍然是一个未被充分探索的问题。

图1:示意图:(a) 关系数据库中的异常实体;(b) 将表格异常检测方法适配到关系数据库的局限性;(c) 将图异常检测方法适配到关系数据库的局限性。

为了解决这一尚未充分探索的问题,一个直接的方案是将数据库转换为与现有异常检测方法兼容的格式,并直接将这些方法应用于RAD。现有方法主要分为两类:表格异常检测(TAD)(Thimonier等,2024a;Ye等,2025a)和图异常检测(GAD)(Pan等,2026b,2025;Ding等,2019;Liu等,2021;Chen等,2024;Pan等,2026a)。TAD方法通常将每个样本表示为一个独立的特征向量,并通过密度估计、距离度量或重构误差来识别异常(Breunig等,2000;Goodge等,2022;Yin等,2024)。然而,当应用于关系数据库时,TAD方法依赖于通过特征工程和聚合将关系模式展平为单个表(如图1b所示)。虽然这种预处理步骤使模型输入变得方便,但可能会丢弃由主键–外键关系编码的依赖关系。同时,由于关系数据库包含分布在不同表中的异质属性,得到的特征矩阵往往包含高维且冗余的特征组,这可能会在全局目标中稀释局部异常信号。另一方面,GAD方法联合建模节点属性和图结构(Chen等,2025a;Tan等,2024),并在社交网络、交易网络和引文网络等场景中取得了有前景的性能(Liu等,2024;Zhao等,2025)。然而,大多数GAD方法是为具有单一邻接矩阵的同质图设计的,很难直接保留由不同主键–外键关系引发的多种关系类型。如果将关系数据库转换为同质图(如图1c所示),特定关系的语义可能会混合,模型可能无法区分是哪种关系行为模式导致了异常。现有TAD和GAD方法在处理复杂关系数据时的局限性,凸显了开发专用RAD框架的迫切需求。为了实现这一目标,关键目标在于利用丰富的实体属性和主键–外键关系进行准确的异常预测。基于这一目标,我们识别出两个关键挑战。

**C1 - 特征冗余与信号稀释。** 与精心策划的单表数据的标准表格数据不同,关系数据库本质上是多表且异质的:一个中心实体可以由中心表的属性、子表的属性以及来自不同实体上下文的特征组来描述。这自然导致一个高维且冗余的特征空间,其中只有一小部分属性可能指示异常行为。因此,大量与异常无关的特征往往会主导模型的学习目标,稀释甚至完全掩盖微妙的局部异常信号。在这种情况下,如何从大量冗余特征中自适应地提取稀疏的异常指标构成了一个重大挑战。

**C2 - 关系异质性与复杂的实体依赖。** 关系数据库中的异常通常嵌入在复杂的依赖关系中,其中中心实体通过语义不同的主键–外键关系与不同类型的邻居实体交互。更重要的是,不同类型的关系可能对实体的异常贡献不均,要求模型有选择地关注最具信息量的依赖关系。在这种情况下,如何利用异质关系来捕捉特定于关系的异常连接模式,需要有效的关系语义建模。因此,如何利用异质关系来捕捉特定于关系的异常连接模式构成了另一个关键挑战。

为了应对这些挑战,我们提出了关系异常检测(RelAD),一种基于重构的RAD框架。RelAD专门为关系数据库设计,其核心思想是通过属性重构和关系边重构两方面来刻画异常。为了解决C1,RelAD融合了一个条件稀疏门控属性重构模块。该模块根据关系数据库的块结构,为中心表属性和子表聚合属性生成条件掩码,使模型在重构前能够自适应地选择信息维度。它还采用特定块的解码和块级残差,使得异常评分可以聚焦于最显著的局部属性偏差,而不是被全局平均误差稀释。为了解决C2,RelAD提出了一个双视图多关系边重构模块,该模块直接重构由主键–外键关系诱导的异构图上的特定关系边。具体来说,模型从中心表自画像和子表聚合画像两个视角对每个中心实体进行编码,并为每种关系类型学习特定关系的邻居实体表示。通过这种方式,RelAD衡量一个实体画像能否解释其在不同关系下的连接行为。最后,RelAD融合三种互补信号——属性块异常、自画像关系异常和子画像关系异常——以产生最终异常分数,覆盖多样的异常来源。总的来说,本文做出以下贡献:
- **问题**:据我们所知,我们首次提出并形式化了关系数据异常检测的问题。基于关系基准,我们还设计了数据集特定的异常合成规则,以支持系统化的模型评估。
- **方法**:我们提出了一种新颖的基于重构的关系异常检测方法RelAD,通过属性重构和多关系边重构,联合捕获局部属性偏差和特定于关系的异常连接模式。
- **实验**:我们进行了大量实验进行评估,实验结果在六个基准数据集上验证了RelAD的有效性、鲁棒性和效率。

## 2 初步概念

**关系数据库。** 遵循关系深度学习,我们将关系数据库视为表集合 \(\mathcal{D}=\{\mathcal{T}^k\}_{k=1}^K\),其中 \(K\) 是表的数量。每个表 \(\mathcal{T}^k\) 包含对应行的实体和对应列的属性。表通过主键–外键关系相连。主键唯一标识一个表中的一行,而另一个表中的外键引用该主键,从而定义了两个表行之间的类型化关系。因此,关系数据库既包含表属性,也包含表间实体关系。

**异构图视图。** 关系数据库可以表示为一个异构图 \(\mathcal{G}=(\{\mathcal{V}^k\}_{k=1}^K,\{\mathcal{E}_r\}_{r\in\mathcal{R}})\),其中每个节点集 \(\mathcal{V}^k\) 由表 \(\mathcal{T}^k\) 的行诱导得出。集合 \(\mathcal{R}\) 包含从数据库模式推导出的关系类型。具体来说,每个关系类型 \(r\in\mathcal{R}\) 对应一个主键–外键约束,或者等价于一个源表、一个外键列和一个被引用表之间的类型化链接。关联的边集 \(\mathcal{E}_r\) 是通过在该约束条件下对两个表的行进行实例化得到的。边 \((v,i)\in\mathcal{E}_r\) 表示两行在关系类型 \(r\) 下相连。不同的关系类型保留不同的语义,如用户–物品交互、用户–设备关联或论文–引用链接。这种异构图视图仅用于定义关系结构;我们的设置保留特定于关系的边集,而不是将它们合并成单个同质图。

**关系异常检测设置。** 对于RAD,我们指定一个表作为目标表(或中心表),其下的实体将被检测;在描述以实体为中心的特征和邻域时,将模式连接的表称为子表或相关表。我们专注于从中心表 \(\mathcal{T}^0\) 中识别异常实体。设 \(\mathcal{U}=\{u_1,\dots,u_N\}\) 表示 \(N\) 个中心实体。每个中心实体 \(u\in\mathcal{U}\) 可能通过多种关系类型连接到异质邻居实体。我们将与中心实体相关的特定关系边集表示为:
\[\mathcal{E}=\{(u,r,i) \mid u\in\mathcal{U},\; r\in\mathcal{R},\; i\in\mathcal{V}^r\},\tag{1}\]
其中 \(\mathcal{V}^r\) 表示与关系类型 \(r\) 关联的邻居实体表,\((u,i)\in\mathcal{E}_r\) 表示 \(u\) 在关系 \(r\) 下与邻居实体 \(i\) 相连。使用异常标签向量 \(\mathbf{y}\in\{0,1\}^N\) 进行评估,其中 \(\mathbf{y}_u=1\) 表示目标实体 \(u\) 异常,否则 \(\mathbf{y}_u=0\)。目标是学习一个异常评分函数 \(f:\mathcal{U}\rightarrow\mathbb{R}\),使得异常实体获得比正常实体更高的分数。在高层面上,异常可能表现为目标实体的异常属性模式、特定于关系的异常连接模式,或者实体属性与关系连接之间的不一致。

**初始特征。** 对于每个表,原始列可以包含数值、类别、时间戳和文本属性。遵循RelBench的特征预处理协议(Gu等,2026),我们将异质的原始列编码为统一的行级表示,其中非文本属性根据其类型进行归一化或嵌入,文本属性则由预训练的文本嵌入表示。令 \(\mathbf{h}_v^k\) 为表 \(\mathcal{T}^k\) 中行 \(v\) 的初始特征向量。对于每个目标实体 \(u\),我们构建一个属性向量:
\[\mathbf{x}_u = \operatorname{Concat}\left(\mathbf{x}_u^{self},\mathbf{x}_u^{agg,1},\dots,\mathbf{x}_u^{agg,B}\right) \in \mathbb{R}^d,\tag{2}\]
其中 \(\mathbf{x}_u^{self}\) 是来自目标表的 \(u\) 的行特征,每个 \(\mathbf{x}_u^{agg,b}\) 是从相关表中的行计算出的聚合特征块。这里,\(B\) 表示子表聚合块的数量,因此完整的属性向量包含 \(B+1\) 个块(包括自块)。聚合使用统计量,如均值、标准差和计数(针对表中的行)。

相似文章

桥接分类与重建:协同时间序列异常检测

arXiv cs.LG

本文提出CoAD,一种新颖的框架,统一了异常暴露(分类)和掩码自编码器(重建)两种范式用于时间序列异常检测,解决了它们各自的局限性。大量实验表明,CoAD在轻量快速的同时,显著优于现有最先进方法。

TPA-AD:一种用于轴承时间序列异常检测的两阶段伪异常引导方法

arXiv cs.LG

TPA-AD 是一种用于轴承时间序列异常检测的两阶段伪异常引导方法,利用重建模型和对比学习在正常边界附近生成伪异常窗口,再通过 KNN 对异常进行评分——训练过程中无需真实异常样本。该方法在轴承故障和退化数据集上进行了评估,包括高速列车轴箱轴承数据。