基于FT-Transformer和堆叠集成对结构化数据进行客户流失预测
摘要
本文提出了一种混合架构,将FT-Transformer与梯度提升树通过校准感知的堆叠方法相结合,用于结构化表格数据上的客户流失预测。在一个公开的银行客户流失数据集上,该方法在F1和AUC-ROC指标上取得了改进。
arXiv:2606.07582v1 公告类型:新
摘要:客户流失预测在保险、数字银行、电子商务和订阅平台等数据驱动型行业中至关重要,因为留住现有客户通常比获取新客户更具成本效益。由于类别不平衡、非线性特征交互以及异构特征类型,在结构化数据集上预测流失仍具有挑战性。基于树的集成方法在这些情境下始终表现出色,通常优于传统神经网络。本研究引入了一种经过验证的混合架构,该架构通过校准感知的堆叠方法将特征标记化变换器(FT-Transformer)与梯度提升树相结合。所提出的框架解决了先前研究中在统计验证、概率校准和可重复性方面的持续空白。FT-Transformer利用自注意力机制捕获高阶特征交互,而XGBoost则利用具有互补归纳偏置的梯度提升决策边界。类别不平衡通过类别加权损失函数进行处理,从而避免了合成过采样,保留了少数类别的分布。模型通过基于折叠外(OOF)堆叠的逻辑回归元学习器进行集成,该元学习器重新校准过于自信的基模型输出并学习最优组合权重。在一个公开的银行客户流失数据集上,混合模型在5x5交叉验证下达到了62.10%的F1、0.861的AUC-ROC和0.647的PR-AUC,相比多层感知器(MLP)基线在F1上提升了3.37个百分点,在AUC上提升了0.027,并报告了95%置信区间。消融研究表明,变换器组件和堆叠策略均对性能有实质性贡献。所提出的方法论为当代结构化表格数据上的客户流失预测提供了一个可重复且可扩展的参考架构。
查看缓存全文
缓存时间: 2026/06/09 08:47
# 基于结构化数据的客户流失预测:采用FT-Transformer与堆叠集成方法 来源:https://arxiv.org/html/2606.07582 \\history 发布日期:xxxx年00月00日,当前版本:xxxx年00月00日。https://arxiv.org/doi.org/ \\corresp 通讯作者:Joyjit Roy(电子邮箱:[email protected])。 SAMARESH KUMAR SINGH² 和 LAXMI SHAW³ 独立研究员,美国德克萨斯州奥斯汀(电子邮箱:[email protected]) 独立研究员,美国德克萨斯州利安德(电子邮箱:[email protected]) 德克萨斯A&M大学维多利亚分校,美国德克萨斯州维多利亚(电子邮箱:[email protected]) ###### 摘要 客户流失预测在保险、数字银行、电子商务和订阅平台等数据驱动型行业中至关重要,因为留住现有客户通常比获取新客户更具成本效益。由于类别不平衡、非线性特征交互以及异构特征类型,在结构化表格数据集上预测流失仍然具有挑战性。基于树的集成方法在这些情境下始终表现出强劲性能,通常优于传统神经网络。本研究引入了一种经过验证的混合架构,通过校准感知的堆叠方法,将特征标记化变换器(FT-Transformer)与梯度提升树相结合。所提出的框架解决了以往研究中在统计验证、概率校准和可重复性方面存在的持续空白。FT-Transformer利用自注意力机制捕获高阶特征交互,而XGBoost则通过互补的归纳偏差捕获梯度提升的决策边界。类别不平衡通过类别加权损失函数处理,避免了合成过采样,并保留了少数类别的分布。使用折叠外(OOF)堆叠和逻辑回归元学习器对模型进行集成,该元学习器重新校准了过度自信的基础模型输出,并学习了最优组合权重。在一个公开的银行流失数据集(10,000名客户,20%流失率)上,混合模型在5×5交叉验证下,报告了95%置信区间,实现了62.10%的F1分数、0.861的AUC-ROC和0.647的PR-AUC,比多层感知器(MLP)基线在F1上高出3.37分(p << 0.001),在AUC上高出0.027。消融研究表明,变换器组件和堆叠策略都对性能有实质性贡献。所提出的方法为当代结构化表格数据上的流失预测提供了一个可重复、可扩展的参考架构,弥合了基于注意力的建模与集成技术之间的最新进展。 ###### 索引术语:客户流失预测、FT-Transformer、梯度提升、堆叠集成、表格数据、类别不平衡、概率校准、可重复机器学习 ## I. 引言 ### I-A. 背景与商业动机 客户流失是指客户终止与企业的互动或账户,通常以取消服务或关闭账户的形式出现。对于银行、保险、电子商务、电信和基于订阅的服务等组织而言,它仍然是最严重的财务问题之一[reichheld1990]。研究表明,公司获取新客户的成本可能是保留现有客户的5到25倍[neslin2006]。据报道,电信和基于订阅服务等行业的客户流失率每年在20%至40%之间[burez2009]。即使是微小的变化,其财务影响也是巨大的。例如,一家拥有50万客户、平均客户生命周期价值(CLV)为2000美元的中型银行,如果流失率降低1%,每年将保留约1000万美元。一家拥有200万活跃订阅者、平均CLV为50美元的虚构电子商务平台,在相同条件下将保留约100万美元。一家拥有10万保单持有人、平均CLV为800美元的区域性保险公司,每年将保留约80万美元。准确的流失预测使公司能够应用有针对性的保留策略,更有效地分配营销预算,并在运营部门管理客户生命周期价值。本文通过一种混合建模方法来解决提高流失预测准确性的挑战,该方法将基于变换器的特征学习与梯度提升决策树相结合,并使用严格的统计验证进行评估。 ### I-B. 技术挑战 有效解决这个问题需要应对若干技术挑战,这些挑战将流失预测与标准分类任务区分开来。主要挑战包括: 1. **类别不平衡**:流失者通常只占客户群的15%至25%。未经不平衡感知方法训练的模型倾向于多数类别,使得准确率指标具有误导性。例如,一个对每个客户都预测“未流失”的分类器可能显示出80%的准确率,但无法提供任何可操作的业务价值。 2. **复杂的特征交互**:行为、人口统计、交易和参与变量以非线性方式相互作用。例如,低账户余额相关的流失风险可能取决于参与水平,从而产生线性或加性模型无法捕获的交互效应。 3. **异构特征**:结构化表格数据集结合了数值和分类变量。它们缺乏图像或文本中存在的空间或序列组织。因此,为此类结构化数据设计的标准深度学习架构通常难以泛化,使得利用归纳偏差更加困难。 4. **有限的数据集规模**:流失数据集通常从几千条到几十万条不等,远小于计算机视觉或自然语言处理中使用的数据集。这种规模增加了过拟合的风险,并限制了数据密集型深度学习模型的适用性。 ### I-C. 流失预测方法的演变 传统的流失预测方法依赖于逻辑回归和基于树的集成。XGBoost[chen2016xgboost]因其建模非线性交互的能力而成为一种领先方法。最近,变换器架构(如FT-Transformer[gorishniy2021])引入了自注意力机制来捕获表格数据中的特征依赖关系。尽管取得了这些进展,基于树的模型在表格基准测试中仍然具有竞争力[grinsztajn2022]。据我们所知,先前的工作尚未系统性地将这两个模型家族与严格的统计验证和概率校准分析相结合,在流失预测文献中留下了一个方法论空白。 ### I-D. 研究空白 基于树的集成和基于变换器的结构化模型都取得了显著进展,但仍存在若干方法论空白: 1. **有限的混合方法**:很少有研究探索将树集成与基于变换器的模型相结合的混合架构,尽管它们的归纳偏差是互补的。 2. **不充分的消融研究**:许多工作只报告最终性能,而没有隔离各个架构组件的贡献。 3. **类别不平衡处理**:一些技术严重依赖过采样方法,这可能会引入合成伪影并扭曲少数类别分布。 4. **可重复性问题**:精确的算法描述、预处理细节和精确的超参数设置通常被省略,这限制了可重复性。 先前的研究既没有系统地将FT-Transformer与基于树的集成方法相结合,也没有应用严格的统计验证或概率校准分析。现有研究独立评估这些架构[huang2020, gorishniy2021, somepalli2021],或者将堆叠方法限制在经典模型上[xu2021]。最近2023至2025年间结合模型的研究主要使用基于SMOTE的过采样[ahmad2023, usmanhamza2024],省略了校准分析,并且没有报告置信区间或效应量。当前研究填补了这三个空白。 ### I-E. 贡献 本文做出以下贡献: 1. **用于表格流失预测的混合架构**:将校准感知的堆叠与FT-Transformer和XGBoost相结合。据作者所知,这是最早专门针对流失预测结合这些组件的研究之一,并系统地验证了误差独立性(ρ=0.62)和概率校准(ECE=0.038)。所提出的方法实现了62.10%的F1分数,并显示出相对于所有基线的统计显著改进(p << 0.001)。 2. **全面的消融分析**:在受控实验条件下,隔离了变换器层、集成策略和元学习器选择的贡献。 3. **概率校准评估**:通过期望校准误差分析,展示了成本敏感干预措施决策可靠性的提高。 4. **完全可重复的实现**:提供了详细的算法规范、预处理步骤和超参数配置,以促进采用和验证。 本文的结构如下。第二部分(https://arxiv.org/html/2606.07582#S2)回顾了经典方法、基于树的方法、深度学习方法和集成方法的相关工作。第三部分(https://arxiv.org/html/2606.07582#S3)介绍了所提框架的数学公式。第四部分(https://arxiv.org/html/2606.07582#S4)描述了数据集。第五部分(https://arxiv.org/html/2606.07582#S5)概述了方法论,包括预处理、模型训练和堆叠过程。第六部分(https://arxiv.org/html/2606.07582#S6)展示了实验结果,如基线比较、特征重要性和校准分析。第七部分(https://arxiv.org/html/2606.07582#S7)涵盖消融和敏感性研究。第八部分(https://arxiv.org/html/2606.07582#S8)讨论了发现及其商业意义。第九部分(https://arxiv.org/html/2606.07582#S9)审视了局限性和对有效性的威胁。第十部分(https://arxiv.org/html/2606.07582#S10)总结了本文,第十一部分(https://arxiv.org/html/2606.07582#S11)概述了未来的研究方向。 ## II. 相关工作 表一:先前流失预测方法研究概述 相关研究主要分为4类:经典统计方法、基于树的集成方法、针对表格数据的深度学习方法,以及集成或堆叠策略。 ### II-A. 经典统计方法 逻辑回归在早期流失研究中一直是主导方法[neslin2006]。它因其可解释性和概率输出而受到重视。然而,线性对数几率假设限制了其捕获现代客户数据集中常见非线性关系和复杂特征交互的能力。Verbeke等人评估了决策树和基于规则的分类器用于流失预测的效果[verbeke2011]。后续研究[verbeke2012new]将这一分析扩展到电信流失,证明集成方法在特定领域设置中始终优于单一分类器。基于规则的模型在保持可解释性的同时表现出竞争力。单棵树仍显示出高方差,这推动了集成方法的发展。生存分析方法[baesens2014]建模流失时间而非二元结果,但需要具有精确流失时间的长itudinal数据,这通常难以获得。这些经典方法提供了可解释性,但在处理现代流失数据集典型的高维特征空间和严重类别不平衡方面存在困难。集成方法更有效地应对这些挑战。 ### II-B. 基于树的集成方法 集成学习组合多个弱学习器以减少方差并提高泛化能力[dietterich2000],标志着流失预测方法论的关键转变。Bagging与随机森林:Breiman的随机森林方法[breiman2001]使用重采样训练数据和随机选择的特征分区构建决策树集成。这种多样化减少了树之间的相关性和方差,同时能够估计特征重要性。最终预测通过多数投票或平均进行。提升方法:Boosting按顺序训练模型,每个阶段强调先前学习器表现较差的样本或区域。AdaBoost[freund1997]重新加权错误分类的样本,而梯度提升[friedman2001]将新树拟合到损失梯度,提供比Bagging更低的偏差。XGBoost:XGBoost[chen2016xgboost]因其正则化、对缺失值的有效处理以及并行树构建,仍然是一个主流的提升框架。Xu等人[xu2021]在使用XGBoost结合特征分组和堆叠的电信流失数据集上报告了98%的准确率。该研究指出,在不平衡条件下,精确率和召回率比准确率更具信息性。现代梯度提升变体:除了XGBoost,还出现了一些优化的实现。LightGBM[ke2017]引入了叶子优先的树增长和基于直方图的分裂,以加快大数据集上的训练。CatBoost[prokhorenkova2018]为高基数分类特征提供了专门编码,并采用有序提升以减少过拟合。这些变体针对特定数据特征提供了性能优势。然而,XGBoost因其成熟度以及在多个领域的广泛验证而仍被广泛采用。 ### II-C. 针对表格数据的深度学习 深度学习在计算机视觉和自然语言处理等领域的强劲表现鼓励研究人员探索用于表格数据集的神经架构。这一转变在实践中被证明是困难的。Grinsztajn等人[grinsztajn2022]在45个表格数据集上比较了深度学习和基于树的方法,并确定了基于树模型持续强劲的几个因素: - **缺乏归纳偏差**:CNN利用空间局部性,变换器捕获序列结构,但表格数据为神经网络提供了本征结构。 - **不规则目标函数**:表格目标表现出尖锐的决策边界,树通过轴对齐分裂捕获这些边界,而神经网络更喜欢光滑函数。 - **特征特性**:树通过选择忽略无信息特征,对单调变换保持不变性,并避免了MLP中看到的旋转敏感性。 最近的基于变换器的架构解决了一些这些挑战[algul2025]。TabTransformer[huang2020]将自注意力应用于分类嵌入,但没有明确建模与数值特征的交互。FT-Transformer[gorishniy2021]将数值和分类特征分词化为共享表示,并应用变换器层来建模特征交互。SAINT(自注意力和样本间注意力变换器)[somepalli2021]引入了行间注意力和对比预训练,但计算成本更高。在广泛学习背景下,基于注意力的架构的计算复杂性已被分析[jin2024flexible, jin2022regularized],其中正则化和基于流形的方法提供了与表格模型设计相关的效率权衡。TabNet(表格注意力网络)[arik2021]使用序列注意力进行可解释的特征选择。Sarafian最近的工作[sarafian2025]探索了改进的训练程序和架构优化,用于深度表格学习。 ### II-D. 集成与堆叠策略 堆叠(堆叠泛化),由Wolpert[wolpert1
相似文章
ChurnNet:一种用于流失预测的优化现代AI
本文评估了传统机器学习技术(随机森林、XGBoost、支持向量机)与深度学习模型(统一多任务时间序列模型)在零售客户流失预测中的表现,发现传统方法在预测性能和效率上可以更胜一筹。
一种基于滚动窗口的客户流失预测与行为驱动因素识别框架
本文提出了一种适用于非契约服务环境的滚动窗口客户流失预测框架,利用30天的行为窗口实现持续风险评估。基于真实数据的评估显示,基于特征的模型达到了87.6%的准确率和0.94的ROC-AUC,而基于序列的模型召回率高达96.1%。
时间对比变换器用于金融犯罪检测:通过预测对比编码实现自监督序列嵌入
介绍了时间对比变换器(TCT),一种用于从金融交易中学习时间嵌入的自监督框架,用于欺诈检测。仅使用嵌入时AUC达到0.8644,但并未超过强工程特征(AUC 0.9205 vs 0.9245),表明学习到的表示与现有特征存在重叠。
DT-Transformer:一个在真实世界健康系统上进行疾病轨迹预测的基础模型
DT-Transformer是一个基础模型,在Mass General Brigham(MGB)健康系统的11家医院中,基于170万名患者的5710万条结构化EHR记录进行训练,在896个疾病类别的下一事件预测中展现出强大的区分能力。
预测中期阿尔茨海默病进展:基于ADNI临床和生物标志物历史数据实现24个月CDR-SB变化的残差间隙感知变换器
本文提出了一种残差间隙感知变换器,将混合效应统计参考与基于变换器的残差学习相结合,利用ADNI临床和生物标志物历史数据预测24个月CDR-SB变化,在均方误差和相关性上均优于基线模型。