ChurnNet:一种用于流失预测的优化现代AI

arXiv cs.LG 论文

摘要

本文评估了传统机器学习技术(随机森林、XGBoost、支持向量机)与深度学习模型(统一多任务时间序列模型)在零售客户流失预测中的表现,发现传统方法在预测性能和效率上可以更胜一筹。

arXiv:2606.00169v1 公告类型:新 摘要:竞争加剧以及零售商提供的产品和服务日益相似,降低了客户转向竞争对手的门槛。准确的流失预测可以成为推动有效个性化营销活动并帮助减少客户流失的宝贵工具。本研究评估了传统机器学习技术(即随机森林、XGBoost和支持向量机)的性能,并将其与统一多任务时间序列模型(一种二元时间序列分类任务)进行了比较,用于流失预测。尽管后者在建模复杂时间动态和变量间关系方面能力强大,但我们的结果表明,在流失预测方面,传统方法在预测性能、数据效率以及训练和部署的计算资源需求方面仍可超越它。这些发现在多个数据集和多种流失标记技术中保持一致。
查看原文
查看缓存全文

缓存时间: 2026/06/02 15:39

# ChurnNet: 一种用于客户流失预测的优化现代人工智能
来源:https://arxiv.org/html/2606.00169
11institutetext:罗马智慧大学计算机、控制与管理工程系,意大利罗马22institutetext:罗马智慧大学Unitelma法学院与经济系,意大利罗马33institutetext:Token金融科技研发中心,土耳其伊斯坦布尔44institutetext:罗马第三大学土木、计算机科学与航空技术工程系,意大利罗马###### 摘要

零售商之间日益激烈的竞争以及产品和服务日趋同质化,降低了客户转向竞争对手的门槛。准确的客户流失预测可以成为推动有效个性化营销活动、帮助减少客户流失的有力工具。本研究评估了传统机器学习技术(即随机森林、XGBoost和支持向量机)的性能,并将其与统一多任务时间序列模型(用于客户流失预测这一二元时间序列分类任务)进行了比较。尽管后者在建模复杂时间动态和变量间关系方面能力强大,但我们的结果表明,在客户流失预测方面,传统方法在预测性能、数据效率以及训练和部署的计算资源需求上仍能超越它。这些发现在多个数据集和不同的客户流失标记技术下均保持一致。

## 1 引言

近年来,零售业经历了深刻的变革。在线及全渠道销售的普及,使消费者能够通过数字平台便捷地接触到多家零售商,这与传统零售主要依赖实体接触点和本地客户群的情况截然不同。这种演变加剧了竞争,并极大地降低了转换壁垒[27(https://arxiv.org/html/2606.00169#bib.bib4),4(https://arxiv.org/html/2606.00169#bib.bib5)],使得客户留存成为各类规模零售商的战略优先事项。

客户流失,即消费者减少或停止其购买行为的过程,在此背景下已成为一个关键挑战。在非合约环境下,如电子商务和杂货零售,流失并非通过正式取消发生,而是通过行为变化(例如购买频率或购买量下降)来体现[8(https://arxiv.org/html/2606.00169#bib.bib8)]。检测这些逐渐发生的背弃行为尤为困难,但却至关重要,因为客户参与度的细微下降往往先于完全的流失[31(https://arxiv.org/html/2606.00169#bib.bib10),17(https://arxiv.org/html/2606.00169#bib.bib11)]。

与此同时,客户数据(尤其是通过忠诚度计划、电子收据、浏览历史和CRM系统获取的数据)日益丰富,使得更复杂的客户分析方法成为可能[35(https://arxiv.org/html/2606.00169#bib.bib9),18(https://arxiv.org/html/2606.00169#bib.bib6)]。这种数据丰富性促进了机器学习(ML)和人工智能(AI)方法在客户流失预测中的应用,进而帮助企业识别早期预警信号并实施针对性的留存策略[17(https://arxiv.org/html/2606.00169#bib.bib11),20(https://arxiv.org/html/2606.00169#bib.bib12)]。

基于AI的客户流失预测已在合约制行业(如电信、银行和保险)中得到广泛探索,多项近期综述回顾了传统ML和深度学习方法(例如[16(https://arxiv.org/html/2606.00169#bib.bib16),22(https://arxiv.org/html/2606.00169#bib.bib17),3(https://arxiv.org/html/2606.00169#bib.bib18)])。然而,非合约制零售领域的相关研究仍相对不足。与合约制情境(其中流失由服务取消等离散事件定义)不同,在非合约制零售中,由于缺乏明确的终止行为,模型设计和流失标签的操作化都变得更加复杂[9(https://arxiv.org/html/2606.00169#bib.bib13),Rodríguez2023]。

为了开发一个客户流失预测系统,自然会提出关于哪种机器学习方法最合适的问题。一方面,最近的技术,如UniTS[15(https://arxiv.org/html/2606.00169#bib.bib19)]、TimesNet[33(https://arxiv.org/html/2606.00169#bib.bib1)]和FlowFormer[34(https://arxiv.org/html/2606.00169#bib.bib2)],在来自不同领域和难度级别的数据集上的二元时间序列分类任务中表现出色。为了实现这种性能,这些模型采用了深度且复杂的架构,因此计算成本高且容易过拟合[5(https://arxiv.org/html/2606.00169#bib.bib38)]。为了缓解这个问题,它们需要在大型数据集上进行训练。相比之下,传统技术也已成功应用于客户流失预测,并取得了良好性能。这些模型由于其相对简单的架构,在计算和数据效率方面更具优势。在本文中,我们考察客户流失预测作为一个时间序列二元分类任务,其相对简单的性质是否需要使用深度、现代但复杂的架构,还是说传统、简单的模型就足以提供强大的预测性能。

为了进行这项分析,我们比较了传统机器学习模型(即随机森林、XGBoost和支持向量机SVM)与统一多任务时间序列模型(UniTS)[15(https://arxiv.org/html/2606.00169#bib.bib19)],后者是一个专门设计用于处理时间数据的基于Transformer的模型。我们选择UniTS模型来代表现代深度学习架构,因为它在时间序列二元分类任务上表现顶尖[15(https://arxiv.org/html/2606.00169#bib.bib19)]。本研究跨越多个真实世界的零售数据集,并采用了一系列基于时间窗口内平均周支出相对下降的流失标签定义。我们的目标不仅是评估原始预测性能(精确率、召回率、F1分数),还要分析其在具有不同特征(包括规模和失衡程度)的数据集上的表现。这种分析在考虑用于实际部署的系统时非常重要。事实上,本研究的结果将为Infocube(https://www.infocube.it/)开发一个商业客户流失预测系统提供信息,Infocube是一家数字营销解决方案提供商,为我们提供了本研究评估套件中包含的两个数据集。

本文的其余部分结构如下。第2节(https://arxiv.org/html/2606.00169#S2)回顾了关于电子商务和零售中基于AI的客户流失预测的相关研究,重点关注应用模型、近期创新以及先进AI技术的使用。第3节(https://arxiv.org/html/2606.00169#S3)概述了本研究中使用的客户流失预测模型,讨论了它们在客户流失预测任务上的理论适用性。第4节(https://arxiv.org/html/2606.00169#S4)详细介绍了我们的方法,包括数据集准备和客户流失标记策略。第5节(https://arxiv.org/html/2606.00169#S5)描述了模型的实现。第6节(https://arxiv.org/html/2606.00169#S6)展示了实证结果,并对结果的表现和解释进行了讨论,同时评论了每种方法在实际客户流失预测场景中的意义。第7节(https://arxiv.org/html/2606.00169#S7)讨论了本研究的局限性以及对有效性的威胁。最后,第8节(https://arxiv.org/html/2606.00169#S8)对本文进行总结,并概述了未来研究的潜在方向。

## 2 相关工作

尽管客户流失预测的研究主要集中在合约制环境,但也有不少研究在非合约制背景下考察了这一任务。这些研究采用了广泛的AI技术。虽然文献主要集中在传统方法上,如决策树(DT)、随机森林(RF)、XGBoost(XGB)、支持向量机(SVM)、K近邻(KNN)和逻辑回归(LR),但更近期的方法,包括人工神经网络(ANN)、卷积神经网络(CNN)和长短期记忆网络(LSTM),也以不同程度的成功得到了应用[30(https://arxiv.org/html/2606.00169#bib.bib39),22(https://arxiv.org/html/2606.00169#bib.bib17),11(https://arxiv.org/html/2606.00169#bib.bib20)]。

Rahib等人[26(https://arxiv.org/html/2606.00169#bib.bib30)]应用了几种传统的机器学习方法,如SVM、RF和DT。Sunarya等人[32(https://arxiv.org/html/2606.00169#bib.bib33)]实施了LR和RF。Agbemadon等人[1(https://arxiv.org/html/2606.00169#bib.bib35)]应用了传统的AI技术,如LR和XGB,以及现代方法,如ANN和LSTM。Boukrouh等人[6(https://arxiv.org/html/2606.00169#bib.bib31)]对一套广泛的AI技术进行了全面分析,包括DT、RF、SVM、LR、NB、KNN和ANN。除了评估预测性能,这项研究还使用了可解释人工智能(XAI)方法(如Shapley加法解释SHAP和局部可解释模型无关解释LIME)来开发对这些模型的解释。

除了应用标准技术,一些研究还侧重于旨在提升AI模型性能的方法创新。Gan等人[14(https://arxiv.org/html/2606.00169#bib.bib34)]将社会行为与影响动态整合到XGBoost框架中,以捕捉客户对其社交网络的影响。Pondel等人[24(https://arxiv.org/html/2606.00169#bib.bib36)]专注于电子商务数据,结合非时间序列的部门信息,尝试了ANN和循环神经网络(RNN)的变体,以确定性能最佳的选择。Miguéis等人[S35-ID783-Miguéis]探索了多元自适应回归样条(MARS)的实现,并将其性能与LR进行了基准比较。值得注意的是,Seema等人[29(https://arxiv.org/html/2606.00169#bib.bib32)]引入了一种新颖的方法,涉及用于训练CNN的衰变通道补丁热图,旨在提高深度学习模型在客户流失预测背景下的有效性。

虽然先前的研究已经探索了一系列用于客户流失预测的AI技术,但大多数研究要么孤立地关注传统模型,要么孤立地关注复杂模型。我们的工作通过将传统机器学习模型(如决策树、随机森林和XGBoost)与专门为时间序列数据设计的基于Transformer的模型UniTS进行比较,而显得与众不同。这种独特的比较突显了更简单的模型与那些专门为时间任务设计的模型相比的有效性,填补了现有文献中的空白。

## 3 背景

### 3.1 客户流失的定义

在零售领域,客户流失指的是,在特定时间段内,先前活跃的客户停止或大幅减少购买行为的情况。与合约制环境(流失通过合同终止被明确观察到)不同,零售中的流失通常是根据行为不活跃来推断的,这使得其检测更具挑战性。

在零售中标记流失客户通常涉及定义一个不活跃或参与度显著下降的时期,称为流失窗口或流失视界,超过该时期则客户被认为已流失。常见方法包括固定阈值,例如在3、6或12个月内没有购买[19(https://arxiv.org/html/2606.00169#bib.bib24),2(https://arxiv.org/html/2606.00169#bib.bib25)],或基于个人购买模式的动态阈值,例如客户平均购买间隔时间或支出的倍数[25(https://arxiv.org/html/2606.00169#bib.bib26),23(https://arxiv.org/html/2606.00169#bib.bib27),28(https://arxiv.org/html/2606.00169#bib.bib40)]。一些研究还应用客户细分和聚类方法、基于概率的评分或生存分析来估计流失概率[21(https://arxiv.org/html/2606.00169#bib.bib28),12(https://arxiv.org/html/2606.00169#bib.bib29)]。

准确的流失标记至关重要,因为它既影响模型训练,也影响企业对流失风险的业务解读。然而,不同研究和行业之间的定义差异很大。

### 3.2 使用的AI技术

正如几篇文献综述[30(https://arxiv.org/html/2606.00169#bib.bib39),22(https://arxiv.org/html/2606.00169#bib.bib17)]和我们之前的研究[11(https://arxiv.org/html/2606.00169#bib.bib20)]所强调的,本工作中选择的传统机器学习模型是客户流失预测文献中使用最广泛、最成熟的AI技术之一。相比之下,UniTS代表了一种专门为时间序列数据设计的现代深度学习模型,已成功应用于多个领域[15(https://arxiv.org/html/2606.00169#bib.bib19)]。

下面,我们简要描述本研究中使用的AI技术,包括传统的机器学习方法和UniTS,重点介绍它们的关键特征及其与客户流失预测的相关性。

#### 3.2.1 随机森林

RF由Breiman于2001年提出,通过聚合基于自助样本和随机特征子集构建的多个决策树的预测,来解决决策树的过拟合问题[7(https://arxiv.org/html/2606.00169#bib.bib21)]。森林中的每棵树都对结果进行投票,多数投票决定最终预测。与单棵树相比,这种集成方法增强了稳定性和准确性。随机森林在处理高维、非线性数据方面特别有效,并能提供关于特征重要性的宝贵见解。在客户流失预测中,随机森林可以捕捉客户行为中的复杂模式;然而,与序列模型相比,它在建模时间依赖性方面可能效果较差。

#### 3.2.2 XGBoost

XGBoost由Chen于2016年发布,是一种高效的梯度提升框架,旨在通过并行化和正则化来提高速度和性能[10(https://arxiv.org/html/2606.00169#bib.bib23)]。它顺序地构建加性决策树,其中每棵新树使用来自损失函数的梯度信息来纠正先前集成模型的错误。XGBoost集成了诸如收缩、列子采样和树剪枝等技术,以防止过拟合并提升性能。它在表格数据上实现了高精度,处理缺失值,并能有效管理类别不平衡。然而,为了发挥其最佳性能,需要进行仔细的调优。在客户流失预测中,XGBoost在捕捉客户行为中的复杂模式和处理不平衡数据集方面已被证明特别有效。

#### 3.2.3 支持向量机

SVM于20世纪90年代早期被提出,旨在为分类任务寻找最优的分隔超平面,使用核函数来建模非线性关系[13(https://arxiv.org/html/2606.00169#bib.bib22)]。其核心思想是找到最大化不同类别之间间隔的超平面,而支持向量(最接近边界的数点)定义了这种分隔。核技巧在需要时将数据变换到更高维空间,使其线性可分。SVM在高维空间中功能强大,但可能会遇到可扩展性问题。

相似文章

用于乳腺癌复发预测的多模态机器学习

arXiv cs.LG

本文探讨了整合多模态临床数据(包括治疗记录、病理报告和临床医生笔记)的方法,通过基于规则的提取和机器学习,与单模态方法相比,提高乳腺癌复发预测的准确性。