SAGE:一种由LLM驱动的自我反思智能体框架用于欺诈检测

arXiv cs.AI 论文

摘要

介绍了SAGE,首个端到端的LLM驱动的多智能体框架用于欺诈检测,它使用数据诊断树和具有自然语言梯度的马尔可夫决策过程,在类别不平衡下优化模型。实验表明,在五个数据集上,与基线相比F1有显著提升。

arXiv:2606.08146v1 公告类型:新 摘要:支付、电子商务和电信系统中的欺诈检测需要在个体层面上的准确性、在严重类别不平衡下的鲁棒性,以及易于风险管理人员理解。现有方法至少缺少其中一项要求:自动化机器学习系统在固定数值空间中搜索,缺乏对数据集的语义意识;基于图神经网络的方法需要预定义的关系图,并且在个体决策层面仍然不透明;而通用大型语言模型(LLM)智能体的设计未考虑现实世界欺诈检测特有的召回率和精确率约束。在本文中,我们提出了SAGE,这是第一个端到端的LLM驱动的多智能体框架用于欺诈检测。SAGE协调三个专用智能体,这些智能体基于六层数据诊断树(DDT)和由自然语言梯度引导的马尔可夫决策过程做出决策,在欺诈特定奖励下自动优化模型。在五个欺诈数据集和五个LLM骨干网络上,SAGE在方法-数据集比较中赢得了96.00%的对比,并且平均F1比基线提高了40.86%。代码可在 https://github.com/yichenC1c/SAGE 获取。
查看原文
查看缓存全文

缓存时间: 2026/06/09 08:55

# SAGE:一种用于欺诈检测的LLM驱动的自反思智能体框架

来源:https://arxiv.org/html/2606.08146

Yichen Chen  
新加坡国立大学计算机学院  
新加坡 117417  
[email protected]  

Siying Li  
中国科学院大学  
信息工程研究所,北京 100085  
[email protected]  

Yuhang Liang  
中国移动通信集团大数据事业部  
北京 102206  
[email protected]  

Lijun Wang  
中国移动通信集团大数据事业部  
北京 102206  
[email protected]  

Renyang Liu  
新加坡国立大学数据科学研究所  
新加坡 117602  
[email protected]  

###### 摘要

支付、电子商务和电信系统中的欺诈检测需要在个体层面保证准确性,在严重类别不平衡下保持鲁棒性,并且对风险管理人员易于理解。现有方法至少未能满足这些要求之一:自动化机器学习系统在固定数值空间中搜索,缺乏对数据集语义的感知;基于图神经网络的方法需要预定义的关系图,在个体决策层面仍然不透明;通用大语言模型(LLM)智能体的设计没有考虑真实世界欺诈检测中特定的召回率和精确率约束。在本文中,我们提出 SAGE,这是第一个用于欺诈检测的端到端 LLM 驱动的多智能体框架。SAGE 协调三个专用智能体,这些智能体基于六层数据诊断树(DDT)和由自然语言梯度引导的马尔可夫决策过程做出决策,从而在欺诈特定奖励下自动优化模型。在五个欺诈数据集和五个 LLM 骨干网络上,SAGE 在 96.00% 的方法-数据集对比中胜出,并且 F1 指标平均比基线提高 40.86%。代码可在 https://github.com/yichenC1c/SAGE 获取。

## 1 引言

欺诈已成为数字时代最普遍的经济威胁之一,严重侵蚀了公众对支付系统、电子商务平台和电信网络的信任。大语言模型(LLM)的快速发展以及日益自动化的欺诈策略导致欺诈案件的操作成本呈指数级增长。因此,欺诈检测需要从后端数据挖掘任务转向响应迅速且可持续的自动化工程流程,同时保持对风险管理人员和审计人员的可解释性。然而,在大多数真实世界环境中,每个可疑实体的可用证据并非丰富的关联图,而是结构化的特征,如设备指纹、交易历史、通话模式和聚合的行为统计数据。本文旨在解决的核心问题是:如何基于这类个体层面数据自动构建准确、鲁棒且可解释的欺诈检测器。

尽管已有大量研究致力于解决这一问题,但现有研究仍存在不足。传统的监督学习过程和自动化机器学习(AutoML)系统擅长处理结构化数据,但它们依赖于固定的数值搜索,生成的模型缺乏语义基础。一些基于图神经网络(GNN)的反欺诈方法需要预定义的关系图,在实践中构建成本高昂,并且在个体决策层面仍然不透明,难以满足真实世界反欺诈操作的需求。最近开发的通用 LLM 智能体能够进行规划、编码和自我修正,但它们都是基于通用基准开发的,而非基于反欺诈所需的召回率和精确率约束的任务环境。据我们所知,目前还没有专门为真实世界反欺诈场景中的分类器构建任务设计的 AI 智能体框架。这一空白促使我们提出了一个创新的设计理念:构建一个专门用于真实世界业务场景中欺诈检测分类器构建的 LLM 智能体。在该智能体中,模型拥有足够的自主性来推理数据特征和分类器本身,同时受到结构和基于奖励的约束,确保其决策有据可依且符合反欺诈要求。

实现这一设计理念面临两个具体挑战:

- **C1:** 智能体如何在不被海量原始列级数据淹没的情况下,快速构建欺诈数据集的全局、真实画像,从而选择高效且正确的分类器模型?
- **C2:** 智能体的迭代过程如何完全遵循原则而非随意,确保每次优化都基于任务目标和现有证据?

为了回答这些问题,我们提出了 SAGE,一个用于结构化数据欺诈检测的端到端多智能体框架。SAGE 将工作流程分解为三个由 LLM 驱动的专用智能体,它们严格按顺序运行:首先,“画像智能体”将数据集解释为数据诊断树(DDT),以语义层面感知欺诈数据集的完整特征,通过对数据集进行画像,避免因数据集过长导致智能体上下文丢失;其次,“规划智能体”利用“画像智能体”描述的 DDT 来理解整体数据集,选择最优算法,并合成为一个针对该数据集定制的初始分类器模型;最后,“优化智能体”通过有限时间马尔可夫决策过程在代码空间中迭代优化模型。在此过程中,语言模型首先发出自然语言梯度来评估当前模型,然后将该评估转化为局部的代码优化,最终达到奖励机制设定的欺诈业务场景所需的召回率和精确率约束。用户只需提供欺诈数据集;从数据分析到模型优化的整个过程无需人工干预即可完成,为反欺诈专家节省了大量原本用于数据清洗、特征工程和参数调优的时间。

总之,我们的主要贡献如下:

- **据我们所知**,SAGE 是第一个专门为个体层面表格欺诈数据集检测设计的、基于 LLM 的端到端多智能体框架。
- **我们引入了 DDT**,一个六层结构化先验,将极长原始数据集的特征信息表征为一种欺诈感知的树状表示,使智能体能够在有限的上下文窗口内做出基于数据集的决策。
- **我们将智能体代码优化形式化为**一个由自然语言梯度驱动的有限时域马尔可夫决策过程(MDP),在此过程中,自然语言在欺诈特定的召回率和精确率约束下被转化为具体的代码修改。
- **我们在五个欺诈数据集**(四个公开基准和一个真实工业数据集)以及五个 LLM 骨干网络上评估了 SAGE。结果表明,它显著优于现有的 AutoML 系统、LLM 编码智能体和人类专家,同时对底层语言模型的变化不敏感。

本文的其余部分组织如下。第 2 节(https://arxiv.org/html/2606.08146#S2)分析当前背景和现有欺诈检测范式,并比较相关工作。第 3 节(https://arxiv.org/html/2606.08146#S3)形式化反欺诈问题并介绍贯穿 SAGE 的建模原语。第 4 节(https://arxiv.org/html/2606.08146#S4)详细阐述 SAGE 框架及其设计原则,包括数据诊断树和自然语言梯度引导的马尔可夫决策过程(MDP)。第 5 节(https://arxiv.org/html/2606.08146#S5)介绍实验设置、主要结果、鲁棒性和敏感性分析、可解释性案例研究以及消融研究。第 6 节(https://arxiv.org/html/2606.08146#S6)讨论局限性和未来研究方向,第 7 节(https://arxiv.org/html/2606.08146#S7)总结全文。

## 2 相关工作

### 2.1 欺诈检测背景

欺诈已成为全球最具破坏性的经济威胁之一,渗透到金融和电信领域。2025 年一项覆盖 42 个市场、涉及 46,000 名成年人的调查发现,57% 的受访者在过去一年中经历过欺诈,估计全球损失达到 4420 亿美元[18](https://arxiv.org/html/2606.08146#bib.bib25)。欺诈形式多种多样:信用卡和支付欺诈、电子商务欺诈、账户盗用、加密货币交易欺诈,以及电信领域的语音钓鱼和短信钓鱼(smishing)。大量研究已经对这些场景进行了形式化:[9](https://arxiv.org/html/2606.08146#bib.bib17)形式化了信用卡欺诈检测系统;[42](https://arxiv.org/html/2606.08146#bib.bib27)通过交易图上的半监督门控注意力网络处理信用卡欺诈;[43](https://arxiv.org/html/2606.08146#bib.bib28)通过队列增强针对表格数据中的伪装欺诈;[22](https://arxiv.org/html/2606.08146#bib.bib26)引入了一种以事件为中心、常识引导的虚假检测框架;[14](https://arxiv.org/html/2606.08146#bib.bib29)针对电信欺诈的隐性文本表达。在这些场景中,检测问题归结为个体层面的分类:根据单个交易、账户或用户自身的行为记录(通常编码为设备属性、交易记录、呼叫行为以及聚合的时间/频率统计)判断其是否欺诈。这项任务具有困难的统计特征:欺诈极为罕见(合法活动数量是欺诈的几十到几百倍),这种严重不平衡被认为是一个基本的学习障碍[21](https://arxiv.org/html/2606.08146#bib.bib40),并一再被认定为欺诈检测的核心挑战[27](https://arxiv.org/html/2606.08146#bib.bib19),[46](https://arxiv.org/html/2606.08146#bib.bib20);在严格的误报预算下,错误成本是不对称的;而且欺诈具有对抗性和非平稳性[10](https://arxiv.org/html/2606.08146#bib.bib18)。这些特性在广泛使用的基准数据集中有所体现,例如欧洲信用卡数据集[31](https://arxiv.org/html/2606.08146#bib.bib4)、PaySim 模拟器[26](https://arxiv.org/html/2606.08146#bib.bib5)和 Elliptic Bitcoin 数据集[40](https://arxiv.org/html/2606.08146#bib.bib6)。

### 2.2 欺诈检测方法

经典研究已经证明了数据挖掘分类器的强大能力:[4](https://arxiv.org/html/2606.08146#bib.bib31)在真实信用卡数据上比较了逻辑回归、支持向量机和随机森林,[44](https://arxiv.org/html/2606.08146#bib.bib32)确认了随机森林的有效性;序列感知变体,如 [24](https://arxiv.org/html/2606.08146#bib.bib33)的 LSTM 模型和 [33](https://arxiv.org/html/2606.08146#bib.bib34)的隐马尔可夫方法,进一步利用了交易顺序。在此基础上,自动化机器学习(AutoML)系统,如 Auto-sklearn[17](https://arxiv.org/html/2606.08146#bib.bib35)、FLAML[38](https://arxiv.org/html/2606.08146#bib.bib7)和 AutoGluon[16](https://arxiv.org/html/2606.08146#bib.bib8),通过在算法和超参数空间中搜索来构建梯度提升树集成,例如 XGBoost[6](https://arxiv.org/html/2606.08146#bib.bib24),由于基于树的模型在表格数据上仍然匹配或超越深度网络[19](https://arxiv.org/html/2606.08146#bib.bib22),这已成为事实上的标准。然而,AutoML 探索的是固定的数值搜索空间,而不对数据集语义进行推理,不执行基于领域的特征工程,并且返回的是模型而非人类可读的推理过程;其搜索是统计性的,而非诊断性的。

另一种范式在用户、交易和设备的图上对欺诈行为进行建模[8](https://arxiv.org/html/2606.08146#bib.bib23)。代表性方法包括 [39](https://arxiv.org/html/2606.08146#bib.bib36)的半监督图注意力网络、抗伪装的 CARE-GNN[15](https://arxiv.org/html/2606.08146#bib.bib37)以及不平衡感知的 PC-GNN[25](https://arxiv.org/html/2606.08146#bib.bib38)。这些方法在群体层面和链接层面分析中表现出色,但需要预定义的构建图,这需要昂贵的关联数据收集、相当大的实体解析难度以及手动架构设计,同时在个体决策层面仍然不透明。关键在于,在大多数真实世界的欺诈筛查场景中,可用的证据是简单的个体层面表格数据,而非丰富的关联图[36](https://arxiv.org/html/2606.08146#bib.bib39),[20](https://arxiv.org/html/2606.08146#bib.bib45),因此这些方法所依赖的多关系结构往往不存在或构建成本过高。对于在实际部署中占主导地位的个体层面分类,针对表格数据定制的基于树的模型因此既足够又更可取。

### 2.3 欺诈检测的差距

然而,大语言模型的兴起加剧了欺诈威胁:生成式 AI 使欺诈者能够大规模生成个性化的钓鱼信息和深度伪造内容,削弱了传统检测方法所依赖的词汇和语法线索[34](https://arxiv.org/html/2606.08146#bib.bib30)。与此同时,高质量的经典流程需要专家在特征工程和调优方面付出大量努力,限制了其在欺诈技术演变时的响应速度。最近,大语言模型被用作自治智能体,在外部环境中进行推理和行动。AutoGen[41](https://arxiv.org/html/2606.08146#bib.bib41)编排多个可对话智能体协作解决问题;Reflexion[35](https://arxiv.org/html/2606.08146#bib.bib42)通过口头自我反思而非权重更新来强化智能体;文本梯度方法[32](https://arxiv.org/html/2606.08146#bib.bib1)通过将自然语言批评视为梯度来优化程序。更接近数据工作的是,Data Interpreter[23](https://arxiv.org/html/2606.08146#bib.bib43)将数据科学任务分解为分层计划并调用建模工具,而编码智能体如 Claude Code[2](https://arxiv.org/html/2606.08146#bib.bib44)则根据自然语言指令自主编写、执行和调试代码。这些框架表明 LLM 智能体能够用语言进行诊断、规划和自我修正,但它们是在通用推理、编码和数据科学基准上开发的,没有一个是针对欺诈检测或生产反欺诈系统的严格召回率和精确率约束定制的。表 1(https://arxiv.org/html/2606.08146#S2.T1)对比了主要范式与个体层面欺诈检测的要求。如表所示,AutoML 适合表格数据,但既无语义也无欺诈特定性;图方法是欺诈导向的,但需要关系结构且不透明;当前的 LLM 智能体具有智能体和可解释性,但并非为欺诈检测设计。现有方法中没有一个能同时满足所有四个要求,这促使我们构建一个专门用于表格欺诈检测的 LLM 驱动智能体。

表 1:代表性方法与个体层面欺诈检测的四个要求对比。

## 3 预备知识

本节建立 SAGE 构建的形式化基础。我们将表格欺诈数据定义为

相似文章

AgentForesight:多智能体系统中用于早期故障预测的在线审计

arXiv cs.CL

本文介绍了 AgentForesight,这是一个用于基于大语言模型(LLM)的多智能体系统的在线审计和早期故障预测框架。文章提出了一个新数据集 AFTraj-22K,以及一个专用模型 AgentForesight-7B,该模型在检测轨迹执行过程中的决定性错误方面优于领先的专有模型。

DECOR:基于信息操纵理论审计LLM欺骗行为

arXiv cs.CL

介绍了DECOR,一个基于信息操纵理论的多智能体框架,用于细粒度审计LLM回应中的策略性欺骗,在15个前沿模型的欺骗检测基准测试中取得了最先进的性能。