SilIF:基于轮廓增强的孤立森林用于无监督交易欺诈检测

arXiv cs.LG 论文

摘要

SilIF 通过基于轮廓的评分层增强了孤立森林,该层应用于每棵树路径长度指纹,在 IEEE-CIS 基准测试上平均提升 +0.0080 AUC-PR,改善了无监督交易欺诈检测性能。

arXiv:2605.26135v1 Announce Type: new 摘要:无监督异常检测广泛应用于标签稀缺的交易欺诈检测中。孤立森林(IF)因其可扩展性和易于部署而成为最流行的经典方法之一。我们提出 SilIF,这是孤立森林的一种增强方法,它在森林生成的表示空间中添加了一个基于轮廓的评分层。对于每个数据点,我们提取每棵树路径长度组成的向量,将这些“指纹”聚类为结构组,并计算轮廓分数,以衡量该点与其分配组的匹配程度相对于最近替代组的比较。轮廓信号通过单个超参数 alpha 与基础 IF 分数结合。在 IEEE-CIS 欺诈检测基准测试(约 590K 笔交易,3.5% 欺诈率)上,SilIF 在 alpha=1.0 时,平均在五个随机种子上比普通孤立森林提升 +0.0080 AUC-PR,SilIF 在所有五个种子上均获胜(配对 t 检验 p=0.046)。我们还报告了在合成信用卡数据集(Sparkov)上的结果,其中轮廓增强并未提升普通 IF 的性能,并描述了区分这两种结果的条件。本文将 SilIF 描述为一种可调优、易于部署的孤立森林增强方法,并诚实报告其何时有效、何时无效。代码地址:https://github.com/venkat15vk/silif-anomaly-detection。
查看原文
查看缓存全文

缓存时间: 2026/05/27 09:03

# SilIF:基于轮廓增强的隔离森林用于无监督交易欺诈检测
来源:https://arxiv.org/html/2605.26135

###### 摘要

无监督异常检测广泛应用于标签稀缺的交易欺诈检测场景。隔离森林(IF)因其可扩展性和易部署性,成为最流行的经典方法之一。我们提出了SilIF,一种对隔离森林的增强方法,通过在森林生成的表示空间中添加基于轮廓的评分层。对于每个数据点,我们提取每棵树的路径长度向量,将这些“指纹”聚类成结构组,并计算轮廓系数,衡量该点与其分配组的匹配程度相对于最近其他组的匹配程度。轮廓信号通过单个超参数α与基础IF分数结合。在IEEE-CIS欺诈检测基准(约590K笔交易,3.5%欺诈率)上,SilIF在α=1.0时平均AUC-PR比普通隔离森林提升+0.0080(五个随机种子),且在全部五个种子上均优于普通IF(配对t检验p=0.046)。我们还报告了在合成信用卡数据集(Sparkov)上的结果,其中轮廓增强并未优于普通IF,并描述了区分这两种结果的条件。本文提出SilIF作为隔离森林的一种可调、易部署的增强方法,并诚实报告其何时有效、何时无效。代码和实验脚本可在https://github.com/venkat15vk/silif-anomaly-detection 获取。

## I. 引言

交易欺诈给金融机构和消费者带来巨大成本。与许多监督学习问题不同,实践中的欺诈检测必须应对延迟且不完整的标签、不断变化的对抗行为以及严重的类别不平衡[2,4]。因此,无监督异常检测方法被广泛部署为第一道防线和监督分类器的补充。在无监督方法中,隔离森林[13,14]已成为主力工具:它速度快、可扩展到大型数据集、需要很少的超参数,并生成可解释的逐点异常分数。

隔离森林分数将所有信息压缩为一个标量,表示一个点如何容易地从整体中被区分出来。异常点需要更少的随机分割来隔离,因此平均路径长度较短。虽然有效,但这种标量汇总丢弃了每棵树的信息:两个具有相同平均路径长度的点可能通过森林中非常不同的模式达到该值。我们假设这些被丢弃的结构信息携带有额外的异常信号,并提出一种提取和利用这些信息的方法。

我们提出的方法SilIF(Silhouette-augmented Isolation Forest)将每个点的每棵树路径长度向量视为一个“指纹”表示,将这些指纹聚类成结构组,并应用轮廓系数[17]——最初是一种聚类质量度量——作为指纹空间中的异常信号。其指纹与分配的结构聚类匹配不佳的点获得更高的异常分数。轮廓信号通过单个权重α与基础IF分数结合,其中α=0作为合理性检查特例恢复为普通隔离森林。

#### 贡献。

- • 我们提出SilIF,一种基于轮廓的隔离森林增强层。该方法保持基础IF不变,并添加一个具有单个超参数的事后评分层。
- • 在IEEE-CIS欺诈检测[11]上,SilIF在α=1.0时比隔离森林提升+0.008 AUC-PR(5个随机种子的均值,配对t检验p=0.046,SilIF在5/5个种子上获胜)。它也大幅优于HBOS和ECOD。
- • 我们在第二个数据集(Sparkov[19,8])上报告了负面结果,轮廓层未能提供帮助,并描述了区分两种状态的条件。
- • 我们发布了重现所有实验的代码,并提供逐种子结果CSV。

## II. 相关工作

我们将先前的工作组织为三条与SilIF相交的流。

### II-A 隔离森林及其变体

隔离森林[13,14]利用了异常点通常数量少且与众不同的观察:随机递归分区能以比正常点更少的分割隔离它们。从根到叶的期望路径长度作为标量异常分数。几种扩展修改了基础分区:扩展隔离森林[7]通过使用随机超平面分割解决轴对齐偏差;深度隔离森林[21]使用神经网络将数据映射到随机表示后再应用IF;基于注意力的变体[20]学习树上的权重。这些方法改变了数据表示或树机制。SilIF采取互补方法:它保持IF不变,而是利用训练后丢弃的每棵树结构信息。轮廓增强原则原则上可以与任何上述IF变体结合。

更广泛的树集成异常检测器包括随机切割森林[5],它与IF共享从集成信息生成标量分数的特性。

### II-B 基于聚类和基于密度的异常值检测

第二条线将异常点视为在发现的聚类或密度区域内拟合不佳的点。局部异常因子(LOF)[1]测量相对于最近邻的局部可达密度。基于聚类的局部异常因子(CBLOF)[9]明确地对数据进行聚类,并通过到最近大聚类的距离对点进行评分。这些方法直接在输入特征空间中操作。SilIF的不同之处在于,聚类不是在特征空间中操作,而是在由隔离森林诱导的路径长度指纹空间中操作,该空间可以编码树发现的非线性关系。

轮廓系数[17]经典地用于评估聚类质量和选择聚类数量。一些近期的应用工作将轮廓和隔离森林并行用作独立的异常标志[10],分别在原始特征的K-means聚类和IF分数中计算轮廓,然后取标记点的并集或交集。SilIF与此前的使用在两个方面不同:(i) 我们在路径长度指纹空间而非原始特征空间中计算轮廓;(ii) 两个信号作为连续的加权分数而非独立的布尔标志结合。据我们所知,将轮廓作为增强层应用于隔离森林内部表示的方法此前未见报道。

### II-C 现代统计异常检测

第三条流开发无参数或弱参数化统计检测器。基于直方图的异常值分数(HBOS)[3]假设特征独立性,并使用逐特征直方图密度对点进行评分。ECOD[12]使用逐特征经验CDF,完全无参数。k-最近邻距离分数[16]根据到k个近邻的平均距离计算异常分数。最近的深度学习异常检测方法[15]可以捕捉复杂的非线性结构,但通常需要更大的训练预算并产生可解释性较差的分数。基准测试[6]表明,经典方法在许多表格异常检测任务上仍然具有竞争力。

## III. 方法

### III-A 背景

给定一个包含N笔交易的数据集X={x_i}_{i=1}^N,隔离森林[13]训练由T棵随机二元树组成的集成。对于树t,令h_t(x_i)表示从根到隔离x_i的叶子的路径长度。IF异常分数为

s_IF(x_i) = 2^{-̄h(x_i)/c(ψ)},  ̄h(x_i) = (1/T) Σ_{t=1}^T h_t(x_i),  (1)

其中c(ψ)是在包含ψ个样本的二元树中不成功搜索的平均路径长度,作为归一化因子。

给定一个具有标签ℓ(i)∈{1,...,K}的聚类,点i的轮廓系数[17]为

s(i) = (b(i) - a(i)) / max{a(i), b(i)} ∈ [-1, 1],  (2)

其中a(i)是到同一聚类ℓ(i)中其他点的平均不相似度,b(i)是到任何其他聚类中点的最小平均不相似度。值接近1表示拟合良好;值接近-1表示该点更适合相邻聚类而非自身聚类。

### III-B SilIF

SilIF包含四个步骤。

#### (1) 训练IF。

在X上训练一个标准隔离森林(T棵树),并为每个点计算s_IF(x_i)。

#### (2) 提取路径长度指纹。

对于每个x_i,形成T维向量

φ(x_i) = (h_1(x_i), h_2(x_i), ..., h_T(x_i)) ∈ ℝ^T,  (3)

其编码了森林隔离x_i的详细模式。虽然s_IF仅依赖于̄h(x_i),但φ(x_i)保留了每棵树的变化。

#### (3) 聚类指纹。

对φ逐特征标准化,并使用K-means将标准化后的指纹聚类成K个结构组。对于大型N,我们使用MiniBatchKMeans[18]以提高效率。令ℓ(i)表示x_i的聚类分配,{c_k}_{k=1}^K为指纹空间中的聚类中心。

#### (4) 计算轮廓并组合。

我们使用基于中心的近似轮廓以实现可扩展性:

a(i) = ||φ(x_i) - c_{ℓ(i)}||₂,  b(i) = min_{k≠ℓ(i)} ||φ(x_i) - c_k||₂,  (4)

并定义基于轮廓的异常贡献

s_sil(x_i) = 1 - (b(i) - a(i)) / max{a(i), b(i)}.  (5)

该值范围在[0,2]:低轮廓(聚类拟合差)产生高异常贡献。最终SilIF分数通过单个超参数α≥0组合两个分量:

s_SilIF(x_i) = z(s_IF(x_i)) + α · z(s_sil(x_i)),  (6)

其中z(·)表示在整个数据集上的z-score标准化。标准化使两个分量处于共同尺度,从而使α具有有意义的解释:α=0恢复普通IF;α=1在标准化后给予两个分量相等的权重。

### III-C 直觉

基础IF分数将每棵树信息压缩为平均路径长度。SilIF保留完整的路径长度模式并提出第二个问题:“给定这个点被隔离的方式,其隔离模式是否匹配典型的结构组?”一个难以隔离(低s_IF)但在指纹空间中位置异常(高s_sil)的点将获得升高的总分。超参数α控制轮廓证据允许修改基础IF判断的强度。

### III-D 复杂度

除IF训练外,SilIF还需要:(i) 提取每棵树的路径长度,O(NT);(ii) 在T维指纹上进行K-means,每次迭代O(NTK);(iii) 逐点轮廓计算,O(NK)。对于我们最大的数据集(N≈1.85M,T=100,K=8),SilIF在单个笔记本电脑CPU上每个种子大约需要60秒完成。

## IV. 实验设置

### IV-A 数据集

我们在两个交易欺诈数据集上进行评估,总结于表I。

表I: 评估中使用的数据集。

IEEE-CIS欺诈检测[11]是一个来自Kaggle竞赛的真实世界基准,最初由Vesta公司发布。它包含590,540笔交易,具有393个特征(交易金额、产品代码、匿名化的卡和地址特征、计数C1,...,C14、时间差D1,...,D15以及Vesta工程特征)。我们使用card1作为客户标识符。

Sparkov[19,8]是由Sparkov模拟器生成的合成信用卡交易数据集。它包含1,852,394笔交易,涉及999个客户,跨越两年时间,具有23个特征,包括商户、类别、金额、地理坐标和时间戳。

### IV-B 预处理

对于两个数据集,我们筛选出交易次数≥5的客户,以确保轮廓计算具有有意义的每客户历史;这保留了Sparkov上的所有999个客户和IEEE-CIS上的6,512个客户(577,192笔交易)。我们使用紧凑的、与数据集无关的特征集作为每笔交易的表示:经过对数缩放的交易金额、交易类型(编码)以及每个数据集选择的四个数值特征(IEEE-CIS: C1, C2, C13, C14;Sparkov: 纬度、经度、商户纬度、商户经度)。负值通过符号保留对数缩放处理。

### IV-C 基线

我们将SilIF与以下无监督基线进行比较,所有这些基线都在相同的特征表示上操作:

- • 隔离森林[13]: 100棵树,默认设置;相当于α=0的SilIF。
- • HBOS[3]: 基于直方图,20个箱子。
- • ECOD[12]: 基于经验CDF,无参数。
- • 全局K-Means: 在特征空间中的K-means(K=8),以到中心的距离作为异常分数。这是隔离结构信息作用的“单级”基线。
- • LOF[1]: 局部异常因子,k=20个邻居(仅在N≤100,000时运行,由于O(N²)内存要求)。
- • k-NN距离[16]: 到k=5个最近邻的平均距离(与LOF相同的可扩展性限制)。

### IV-D 指标

我们报告:

- • AUC-ROC: 标准接

相似文章

基于图的金融欺诈检测:校准风险评分与结构正则化

arXiv cs.LG

本文提出了一种用于金融欺诈检测的图神经网络框架,该框架将交易记录和身份信息整合到节点属性中,采用多层消息传递机制,并利用加权监督和结构一致性正则化来改进风险评分和概率校准。在公共数据集上的实验表明,该方法优于现有方法。

FAISS内部:十亿级相似性搜索

Hacker News Top

教育性文章,解释FAISS(一个用于十亿级相似性搜索的库),涵盖向量嵌入、最近邻搜索以及IVF和Product Quantization等高效检索技术。

MultiLinguahah:一种新的无监督多语言声学笑声分割方法

arXiv cs.CL

本文介绍了 MultiLinguahah,这是一种基于 BYOL-A 编码器表示并使用隔离森林(Isolation Forests)进行无监督多语言声学笑声分割的方法。作者证明,通过将笑声检测视为异常检测任务,该方法在非英语环境下的表现优于最先进(SOTA)的监督方法。