一种基于滚动窗口的客户流失预测与行为驱动因素识别框架

arXiv cs.LG 论文

摘要

本文提出了一种适用于非契约服务环境的滚动窗口客户流失预测框架,利用30天的行为窗口实现持续风险评估。基于真实数据的评估显示,基于特征的模型达到了87.6%的准确率和0.94的ROC-AUC,而基于序列的模型召回率高达96.1%。

arXiv:2606.06776v1 Announce Type: new 摘要:客户流失预测是客户分析中的核心任务,尤其在非契约、按使用付费的服务环境中,客户脱离往往无法直接观察,必须通过行为不活跃来推断。现有的流失预测方法通常依赖于简化的时间假设或客户行为的单一时间点表示,这限制了它们支持持续风险评估、可解释性以及随时间推移的实际部署能力。本研究提出了一种时间明确的流失预测框架,通过使用滚动行为窗口对客户行为进行建模,从而能够在客户活动演变过程中进行重复的、实例级别的流失风险估计。客户行为在一个固定的30天观察窗口内进行汇总,随后是一个30天的未来流失评估窗口,确保行为证据与流失结果之间存在清晰的时间分离。该框架在统一的时间设计下集成了基于特征和基于序列的学习方法。所提出的方法在一个来自非契约服务平台的大规模真实世界数据集上进行了评估。实证结果表明了强大且稳定的预测性能:基于特征的模型准确率达到87.6%,ROC-AUC为0.94;而基于序列的模型通过捕获时间脱离模式,召回率高达96.1%。对未来未见数据的评估证实了模型在时间偏移下的稳健性,无需重新训练即可保持83%以上的准确率和超过0.91的ROC-AUC。总体而言,研究结果表明,精心设计的时间框架(而非单纯的模型复杂度)对于实现稳健、可解释且可部署的流失预测至关重要。本研究为动态服务环境中的流失导向决策支持提供了实践基础。
查看原文
查看缓存全文

缓存时间: 2026/06/08 09:18

# 面向流失预测与行为驱动因素识别的滚动窗口框架
Source: https://arxiv.org/html/2606.06776

###### 摘要

客户流失预测是客户分析中的核心任务,尤其在非合约、按次付费的服务环境中,客户的脱离行为无法直接观察到,必须通过行为不活跃来推断。现有的流失预测方法通常依赖简化的时间假设或客户行为的单点表示,这限制了它们在持续风险评估、可解释性以及随时间进行实际部署方面的能力。本研究提出了一种时间明确的流失预测框架,该框架使用滚动行为窗口对客户行为进行建模,从而在客户活动演变过程中实现重复且实例级别的流失风险估计。客户行为在一个固定的30天观察窗口内进行总结,随后是一个30天的未来流失评估窗口,确保行为证据与流失结果之间存在清晰的时间分离。该框架在统一的时间设计中集成了基于特征和基于序列的学习方法。所提出的方法在一个来自非合约服务平台的大规模真实世界数据集上进行了评估。实验结果表明了强大且稳定的预测性能:基于特征的模型准确率达到87.6%,ROC-AUC达到0.94;而基于序列的模型通过捕捉时间上的脱离模式,召回率高达96.1%。对未来未见数据的评估证实了在时间偏移下具有显著的鲁棒性,无需重新训练模型,准确率保持在83%以上,ROC-AUC超过0.91。总体而言,研究结果强调,精心设计的时间框架(而非单纯的模型复杂度)对于实现鲁棒、可解释且可部署的流失预测至关重要,为动态服务环境中以流失为导向的决策支持提供了实践基础。

###### 关键词:

关键词:Churn Prediction, On-demand Services, Rolling-Window Modeling, Interpretable Machine Learning, Decision Support Systems

††期刊:Decision Support Systems

\\affiliation

\[1\]organization=信息与计算机科学系,法赫德国王石油矿产大学,城市=达兰,邮编=31261,国家=沙特阿拉伯

\\affiliation

\[2\]organization=智能出行与物流跨学科研究中心 (IRC-SML),法赫德国王石油矿产大学,城市=达兰,邮编=31261,国家=沙特阿拉伯

\\affiliation

\[3\]organization=SDAIA–KFUPM 人工智能联合研究中心,法赫德国王石油矿产大学,城市=达兰,邮编=31261,国家=沙特阿拉伯

## 1 引言

客户流失是面向服务和基于使用量的行业所面临的持续挑战,在这些行业中,保留现有客户通常比获取新客户更具成本效益。随着竞争压力加剧和客户转换成本降低,组织越来越依赖预测分析来预见客户的脱离行为,并支持以留存为导向的策略。在此背景下,客户流失预测模型通常根据历史行为模式、交易活动和使用信号来估计客户停止主动使用服务的可能性\De Caignyet al\.,[2018 (https://arxiv.org/html/2606.06776#bib.bib2), Verbekeet al\.,2012 (https://arxiv.org/html/2606.06776#bib.bib1)\]。准确的流失预测使组织能够优先处理高风险的客户,并更有效地分配有限的留存资源,这使得流失建模成为当代客户分析中的核心任务\Neslinet al\.,[2006 (https://arxiv.org/html/2606.06776#bib.bib3), Ascarzaet al\.,2018 (https://arxiv.org/html/2606.06776#bib.bib4)\]。

在实际的流失分析中,如果模型输出无法被有意义地解释,仅凭预测准确性是不够的。为了使流失预测具有实际效用,分析师必须能够识别导致流失风险的行为和交易因素,因为这些洞察可以支持诊断和后续干预\Coussementet al\.,[2017 (https://arxiv.org/html/2606.06776#bib.bib5)\]。同时,先前的研究表明,对流失模型的评估应超越预测准确性,以反映其操作实用性,特别是在模型输出用于指导留存行动的情况下\Verbrakenet al\.,[2013 (https://arxiv.org/html/2606.06776#bib.bib6)\]。因此,流失预测模型越来越需要在预测性能与解释能力之间取得平衡,因为未能满足任一目标都可能限制其实际相关性。

尽管关于客户流失预测的研究已相当丰富,但一些方法论上的局限性仍然制约着面向决策和可用于部署的流失预测系统的发展。大部分现有研究将流失预测表述为一个静态分类任务,即每个客户由一个单一数据实例表示并赋予一个单一的流失标签,即使存在丰富的交易或使用数据\De Caignyet al\.,[2020 (https://arxiv.org/html/2606.06776#bib.bib7), Lalwaniet al\.,2022 (https://arxiv.org/html/2606.06776#bib.bib8), Geileret al\.,2022 (https://arxiv.org/html/2606.06776#bib.bib9), De Caignyet al\.,2024 (https://arxiv.org/html/2606.06776#bib.bib10)\]。尽管近期研究通过序列学习、面板数据或滑动窗口设计融入了时间信息,但这些方法通常以固定或序列级别的表示来操作,并不支持对同一客户随时间进行持续、滚动的流失风险重评估\Menaet al\.,[2024 (https://arxiv.org/html/2606.06776#bib.bib11), Ahlstrandet al\.,2025 (https://arxiv.org/html/2606.06776#bib.bib12), Bugajevet al\.,2025 (https://arxiv.org/html/2606.06776#bib.bib13)\]。此外,许多研究缺乏明确且一致的时间问题表述,观察窗口和流失时间范围要么未定义,要么被隐含假设,从而限制了可解释性和现实世界的适用性\Voet al\.,[2021 (https://arxiv.org/html/2606.06776#bib.bib14), Krishnaet al\.,2024 (https://arxiv.org/html/2606.06776#bib.bib15), Chajia and Nfaoui,2024 (https://arxiv.org/html/2606.06776#bib.bib16)\]。即使原始行为数据可用,也常常被聚合为静态或粗粒度的摘要,例如生命周期RFM特征或季度使用统计,这可能会掩盖可能先于流失出现的短期行为动态\Sanchez Ramirezet al\.,[2024 (https://arxiv.org/html/2606.06776#bib.bib18), Asfeet al\.,2025 (https://arxiv.org/html/2606.06776#bib.bib19)\]。最后,大多数流失预测框架是针对具有显式流失事件的合约商业模式设计的,而相对较少的研究涉及非合约、按次付费的服务场景,在这些场景中,流失必须从持续的不活跃模式中推断出来\Zaghloulet al\.,[2025 (https://arxiv.org/html/2606.06776#bib.bib20), Bugajevet al\.,2025 (https://arxiv.org/html/2606.06776#bib.bib13)\]。整体而言,这些局限性凸显了对流失预测框架的需求,该框架应明确时间窗口、保留细粒度的行为动态,并在非合约服务环境中支持滚动、实例级别的流失风险评估。

为了解决这些不足,本研究提出了一种时间明确的流失预测框架,专为非合约、按次付费的服务环境设计。所提出的方法使用随时间推进的滚动行为窗口对客户行为进行建模,从而在获得新活动数据时,能够对同一客户进行重复的流失风险评估。在明确界定的观察窗口内对客户参与度进行总结,同时通过后续的评估窗口来操作化流失,确保行为证据与流失结果之间存在清晰的时间分离。通过为每位客户构建多个带有时间索引的实例,该框架捕捉了通常被静态或生命周期聚合所掩盖的短期行为动态。该方法在统一的时间设计中集成了基于特征和基于序列的学习技术,并结合了可解释的模型输出,以支持主动式客户留存场景中的决策制定。

本文的其余部分组织结构如下。第2节 (https://arxiv.org/html/2606.06776#S2)总结了关于客户流失预测的现有研究,重点放在时间建模方法和决策支持考量上。第3节 (https://arxiv.org/html/2606.06776#S3)描述了所提出的方法论,包括时间窗口策略和建模框架。第4节 (https://arxiv.org/html/2606.06776#S4)展示了实证结果。第5节 (https://arxiv.org/html/2606.06776#S5)在决策支持和部署考量的背景下讨论了研究发现。最后,第6节 (https://arxiv.org/html/2606.06776#S6)对论文进行了总结,并指出了未来研究的方向。

## 2 相关工作

客户流失预测已在各种服务和订阅领域得到广泛研究,其主要目标是识别可能终止与公司关系的客户。早期且被广泛采用的方法将流失预测表述为静态二分类任务,其中每个客户由一个总结历史行为的单一特征向量表示。这种表述通常用于基准驱动的研究,这些研究比较传统的机器学习分类器,包括逻辑回归、随机森林、梯度提升和集成方法,通常在横截面数据集上报告强大的预测性能\Lalwaniet al\.,[2022 (https://arxiv.org/html/2606.06776#bib.bib8), Geileret al\.,2022 (https://arxiv.org/html/2606.06776#bib.bib9), Krishnaet al\.,2024 (https://arxiv.org/html/2606.06776#bib.bib15)\]。这些研究表明,当流失被视为单点结果时,监督学习模型可以有效区分流失者与非流失者,但它们通常依赖于抽象掉时间动态的静态表示。

为了提升预测性能和特征表示,一些研究融入了更丰富的数据源和先进的建模技术。非结构化数据,如文本形式的客户交互和通话记录,已与结构化行为特征相结合,带来了预测准确性的可衡量提升\De Caignyet al\.,[2020 (https://arxiv.org/html/2606.06776#bib.bib7), Voet al\.,2021 (https://arxiv.org/html/2606.06776#bib.bib14)\]。最近的工作通过嵌入和深度学习架构(包括神经网络、元建模框架和大语言模型嵌入)探索了表示学习,旨在捕捉客户行为中的复杂非线性关系\Chajia and Nfaoui,[2024 (https://arxiv.org/html/2606.06776#bib.bib16), Asfeet al\.,2025 (https://arxiv.org/html/2606.06776#bib.bib19)\]。混合和基于集成的方法进一步结合了多种建模范式,以平衡预测性能和可解释性,在多个数据集上展现出优于单一模型基线的持续改进\De Caignyet al\.,[2024 (https://arxiv.org/html/2606.06776#bib.bib10), Zaghloulet al\.,2025 (https://arxiv.org/html/2606.06776#bib.bib20)\]。

除了静态建模,越来越多的研究承认客户行为的时间性质,并试图将时间纳入流失预测。一条研究路径采用了基于面板或序列感知的表述,通过时变特征或有序序列来表示客户行为。例如,时变RFM指标和循环神经网络已被证明可以通过捕捉客户参与度的纵向模式来改进流失预测\Menaet al\.,[2024 (https://arxiv.org/html/2606.06776#bib.bib11)\]。其他研究采用滑动或基于窗口的设计来总结近期行为历史,特别是在从非活跃性(而非显式取消事件)推断流失的环境中\Bugajevet al\.,[2025 (https://arxiv.org/html/2606.06776#bib.bib13), Ahlstrandet al\.,2025 (https://arxiv.org/html/2606.06776#bib.bib12)\]。这些方法展示了时间信息的价值,但它们在观察窗口、预测时间范围和实例生成的定义上存在显著差异。

尽管取得了这些进展,文献中在流失预测任务的时间表述上仍存在显著的不一致性。在许多研究中,观察窗口的长度和流失时间范围的定义要么是隐含的,要么是粗略指定的,这使得难以跨研究比较结果或在操作化背景下解释模型输出\Voet al\.,[2021 (https://arxiv.org/html/2606.06776#bib.bib14), Lalwaniet al\.,2022 (https://arxiv.org/html/2606.06776#bib.bib8)\]。即使使用了基于非活跃性的流失定义,流失也常常通过回顾性方式推断,而没有明确阐述的未来预测窗口,尤其是在非合约或基于使用量的服务环境中\Zaghloulet al\.,[2025 (https://arxiv.org/html/2606.06776#bib.bib20), Asfeet al\.,2025 (https://arxiv.org/html/2606.06776#bib.bib19)\]。因此,尽管先前的工作提供了有力证据表明先进建模技术和时间信息都能增强流失预测,但在如何将流失预测表述为一项时间明确且可重复评估、并与客户行为演变保持一致的任务方面,仍缺乏共识。

## 3 方法论

本节介绍所提出的流失预测框架,该框架旨在对非合约、按次付费服务环境中的短期行为动态进行建模。该方法结合了滚动窗口实例构建策略与基于特征和基于序列的学习方法,从而实现对同一客户随时间进行重复的流失风险评估。图1 (https://arxiv.org/html/2606.06776#S3.F1)总结了端到端的工作流程。整体工作流程包括数据预处理、时间窗口划分、特征工程、模型开发、评估和可解释性分析。

参照图注Fig\. 1:所提出的流失预测方法论概览。原始事件级别的预订数据经过预处理,并组织成滚动行为观察窗口,随后是未来的流失评估时间范围,确保输入与结果之间的时间分离。由此产生的表示用于基于特征和基于序列的建模,随后进行时间感知评估和可解释性分析。

### 3.1问题定义

令i∈\{1,...,N\}表示一个客户,t表示以天为单位的离散时间索引。客户行为通过一系列带时间戳的服务交互来观察。目标是根据客户近期的行为历史,预测其在预定的未来时间段内是否会流失。

流失预测被表述为实例级别的二分类任务。对于每个客户i和参考时间t,使用长度为Wb的行为观察窗口,后跟长度为Wc的流失评估窗口,来构建一个输入实例。流失标签yi,t定义如下:

yi,t=\{1, 如果客户i在区间\[t\+1,t\+Wc\]内未表现出任何资格活动,

相似文章

ChurnNet:一种用于流失预测的优化现代AI

arXiv cs.LG

本文评估了传统机器学习技术(随机森林、XGBoost、支持向量机)与深度学习模型(统一多任务时间序列模型)在零售客户流失预测中的表现,发现传统方法在预测性能和效率上可以更胜一筹。