时衰减 Shapley:一种面向时间序列数据的时间感知数据估值框架

arXiv cs.LG 论文

摘要

本文提出了时衰减 Shapley(TDS),这是一种面向时间序列数据的数据估值框架,通过引入时衰减机制和多尺度融合策略,解决了样本值随时间变化的特性,在噪声检测和数据选择方面优于传统方法。

arXiv:2605.08153v1 公告类型:new 摘要:随着机器学习在时间序列数据应用方面的快速发展,准确评估训练样本的价值对于数据选择、噪声检测和模型优化变得至关重要。然而,传统数据估值方法通常假设样本是独立同分布的,从而忽略了时间序列数据中样本值随时间变化的特性。本文提出了一种改进的时域 Shapley 数据估值方法,通过时衰减机制和多尺度融合策略,实现对时间序列数据的准确样本估值。具体而言,我们提出了三种逐步增强的时域 Shapley 方法。时衰减 Shapley(TDS)通过指数衰减权重将时间信息融入 Shapley 值的计算;改进的 TDS 采用幂指数衰减以更好地适应非线性时间漂移;多尺度时衰减 Shapley(MS-TDS)构建了一种多尺度融合机制,通过并行多尺度估值和样本级自适应融合,平衡短期热点样本和长期基础样本的价值。实验结果表明,所提出的方法在噪声检测和高价值数据识别任务中通常优于传统方法,在大多数强时间设置下优势更为明显,从而有效提高了数据估值的准确性和鲁棒性。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/12 06:56

# 时间衰减沙普利:一种面向时间序列数据的时间感知数据估值框架
来源: https://arxiv.org/html/2605.08153
作者: Chuwen Pang, Bing Mi, 和 Kongyang Chen
Chuwen Pang 和 Kongyang Chen 隶属于广州大学人工智能学院,中国广州 510006。Bing Mi 隶属于广东财经大学公共财政与税收学院,中国广州 510320。

###### 摘要

随着机器学习在时间序列数据应用领域的快速发展,准确评估训练样本的价值对于数据选择、噪声检测和模型优化变得至关重要。然而,传统的数据估值方法通常假设样本是独立同分布的(IID),因此忽略了时间序列数据中样本价值随时间变化的特性。本文提出了一种改进的时间沙普利(Temporal Shapley)数据估值方法,通过时间衰减机制和多尺度融合策略,实现了对时间序列数据的准确样本估值。具体而言,我们提出了三种逐步增强的时间沙普利方法。时间衰减沙普利(TDS)通过指数衰减权重将时间信息纳入沙普利值计算;改进型 TDS 采用幂指数衰减以更好地适应非线性时间漂移;多尺度时间衰减沙普利(MS-TDS)构建了一种多尺度融合机制,通过并行多尺度估值和样本级自适应融合,平衡短期热点样本与长期基础样本的价值。实验结果表明,所提方法在噪声检测和高价值数据识别任务上普遍优于传统方法,在大多数强时间特性设置下优势更为显著,从而有效提高了数据估值的准确性和鲁棒性。

###### 索引术语:

数据估值,沙普利值,时间序列数据,时间衰减,多尺度融合。

## I 引言

近年来,随着人工智能的快速发展,机器学习模型在计算机视觉、自然语言处理、金融风控和医疗诊断等各个领域取得了显著的成功。数据驱动的智能决策已成为现代社会的重要特征。然而,在模型训练过程中,不同的训练样本往往对最终模型性能的贡献各不相同。这种差异不仅体现在样本所包含的信息量上,还体现在其时效性和适用性上。准确评估训练样本的价值对于数据选择、噪声检测和模型优化等关键任务具有重要意义。它有助于构建更紧凑有效的训练集,识别并剔除有害的噪声样本,并指导数据增强策略的设计\[1 (https://arxiv.org/html/2605.08153#bib.bib1),2 (https://arxiv.org/html/2605.08153#bib.bib2)\]。

在传统机器学习框架中,数据通常被视为独立同分布样本的静态集合,且每个样本被认为具有相等的学习价值。然而,这一假设在现实应用中往往不成立。特别是在时间序列数据场景中,样本的价值可能随时间发生显著变化。最近生成的数据往往能更好地反映当前的数据分布和用户行为模式,而历史数据可能因环境变化、概念漂移等因素逐渐失去参考价值\[3 (https://arxiv.org/html/2605.08153#bib.bib3),4 (https://arxiv.org/html/2605.08153#bib.bib4)\]。这种时效性差异在金融交易、网络流量分析和传感器监控等实时应用中尤为突出。

沙普利值(Shapley value)是合作博弈论中的一个经典概念\[5 (https://arxiv.org/html/2605.08153#bib.bib5)\],因其严格满足效率性、对称性、可加性和虚拟玩家这四个基本公理,已成为数据估值的核心理论框架。该理论由 Lloyd Shapley 于 1953 年首次提出。通过计算每个参与者的边际贡献,它确定了每个参与者应得的收益份额,从而保证了分配的公平性和合理性。当前主流的数据估值方法,如留一法(LOO)和蒙特卡洛沙普利近似方法\[6 (https://arxiv.org/html/2605.08153#bib.bib6)\],均基于训练样本独立同分布(IID)的核心假设。它们基于预测概率或分类精度构建效用函数,以静态方式评估样本价值。

然而,在实际应用中,许多数据集表现出明显的时间相关性和概念漂移,这直接挑战了传统方法的理论基础。数据时效性是数据质量的一个重要维度,对样本价值有显著影响。在时间序列数据场景中,样本的价值往往与其生成时间密切相关。近期样本更符合当前的数据分布和模型学习目标,其所包含的模式更有利于提升模型性能。相比之下,历史样本可能因环境演变和模式变化而信息量减少。如果对所有样本不加区分地进行估值,可能会出现低估高时效性样本和高估过时样本的偏差\[7 (https://arxiv.org/html/2605.08153#bib.bib7),8 (https://arxiv.org/html/2605.08153#bib.bib8)\]。

传统沙普利值方法在应用于时间序列数据时面临三个主要局限性。首先,时间信息丢失,因为传统方法将具有不同时间戳的样本视为等效个体,未能捕捉沿时间维度的价值差异。其次,鲁棒性不足。在概念漂移场景中,传统方法可能会错误地给时间上重要的样本分配低价值。最后,适应性有限,因为传统方法的固定加权机制无法适应不同数据集的时间特性\[9 (https://arxiv.org/html/2605.08153#bib.bib9),10 (https://arxiv.org/html/2605.08153#bib.bib10)\]。

为解决上述问题,本文提出了一种改进的时间沙普利数据估值方法。其核心思想是利用时间衰减机制和多尺度融合策略,实现时间序列数据中样本的准确估值,同时减少因缺乏时间信息导致的估值偏差。通过将时间维度视为样本价值的关键调节因子,所提方法有效耦合了“信息价值”和“时间价值”,为非平稳时间场景下的数据估值提供了新的解决方案。

本文的主要贡献总结如下:

- •我们将时间维度明确纳入沙普利值计算框架。通过时间衰减机制和多尺度融合策略,我们为评估非平稳时间数据提供了新的理论范式。提出了三种逐步增强的时间沙普利方法,从基础时间衰减到多尺度自适应融合,形成了完整的时间序列数据估值理论框架。
- •我们设计了三种逐步增强的时间沙普利方法,建立了从基础到高级估值的完整技术体系。TDS 方法通过指数衰减权重有效融入时间信息;改进型 TDS 采用幂指数衰减以更好地适应非线性时间变化;MS-TDS 通过多尺度并行计算和自适应融合,实现了短期热点样本与长期基础样本价值之间的平衡。
- •所提方法具有强大的工程适用性,可有效提高数据清洗效率和模型鲁棒性,为实际应用提供了有价值的工具。在多个异构数据集上的实验结果表明,所提方法在大多数设置下的噪声检测和高价值数据识别任务中普遍优于传统方法。

组织。本文其余部分组织如下。第 2 节阐述主要贡献的研究动机和背景。第 3 节提供问题形式化和理论建模。第 4 节详细介绍改进的时间沙普利框架和算法设计。第 5 节讨论实验设计和关键结果。第 6 节回顾相关研究进展。第 7 节总结全文并展望未来方向。

## II 动机

### II-A 时间序列数据估值

数据估值旨在量化每个训练样本对模型效用的边际贡献,常用于数据选择、噪声检测、训练集缩减以及成本约束下的优先标注。对于给定的学习任务,“有价值样本”通常满足两个条件。首先,它提供额外的判别信息,并提高验证集上效用函数 $U(\cdot)$ 的值。其次,它在当前目标应用分布下保持有效,并帮助模型适应现实环境中最新的模式。

在静态 IID 设置下,样本价值可视为一个相对稳定的量,经典沙普利估值在公平分配边际贡献的意义上提供了合理的表征。然而,在时间序列场景中,数据生成机制往往因概念漂移、周期性、突发事件等因素随时间变化。因此,样本价值表现出显著的时间异质性。近期样本更接近当前分布,通常对短期性能更为关键,而历史样本可能包含长期规律或极端模式,仍对鲁棒性和泛化能力有贡献。换句话说,样本价值不再仅由信息贡献决定,而是由时间位置和时间尺度共同调节。

因此,时间序列数据的数据估值需要回答一个更具体的问题:当模型目标是服务于当前时间或未来一段时间的预测时,应保留并赋予更高权重的历史片段是哪些,应降低权重甚至移除的片段是哪些,从而在准确性、鲁棒性和计算成本之间实现更好的平衡?

### II-B 为何需要时间感知和多尺度

传统沙普利值方法在数据估值中的核心假设是 IID。这些方法仅通过边际贡献来量化价值,但忽略了时间序列场景中信息随时间动态变化的事实。在涉及概念漂移或对有效时间窗口敏感的任务中,平等对待具有不同时间戳的样本可能导致低估高时效性样本和高估过时样本等偏差,从而削弱估值结果对动态场景的适应性\[9 (https://arxiv.org/html/2605.08153#bib.bib9),10 (https://arxiv.org/html/2605.08153#bib.bib10)\]。在实践中,这种偏差通常表现为模型被大量过时的历史样本主导,削弱了对最新分布的学习,最终导致部署或滚动预测期间的性能下降。

从方法设计的角度来看,时间序列数据估值至少面临三个关键挑战:

- •时间相关性和依赖结构。时间序列样本通常表现出强烈的相关性和连续性。某些样本的价值可能并非来自其孤立的点式贡献,而是来自与其邻近片段共同形成的可学习模式。如果估值仅依赖边际贡献而不区分时间,关键时间片段的整体效果可能会被低估。
- •概念漂移和时间衰减。当分布随时间演变时,较旧的样本更有可能与当前任务不匹配。因此,需要一种随时间间隔 $\Delta t$ 递减的机制,以便估值能明确反映时效性。
- •短期热点和长期规律的共存。依赖单一时间尺度可能导致估值偏差。过分强调近期样本可能会丢失长期规律和极端模式,而过分强调历史样本可能会牺牲对当前分布的适应性。在实际应用中,短期变化决定即时性能,而长期规律影响鲁棒性和泛化能力。这两个方面应同时被表征。

此外,时间序列数据通常包含多尺度信息,如短期热点和长期规律。单一衰减形式难以兼顾这两方面:短期尺度更好地反映当前分布,而长期尺度更好地支持泛化能力\[11 (https://arxiv.org/html/2605.08153#bib.bib11)\]。因此,需要一种估值方法,能够在统一框架内联合建模时间时效性和多尺度特性。

基于上述观察,本文采用时间衰减和多尺度建模相结合的策略。首先,使用时间衰减明确建模样本的时效性,使估值能随 $\Delta t$ 可控地递减。此外,引入多尺度并行估值和样本级自适应融合,以便在统一框架内整合来自不同时间尺度的价值信息。这使得该方法能够同时考虑短期适应性和长期鲁棒性。一个直接且可测试的期望是,在噪声检测任务中,低价值样本的排名应更好地匹配破坏时间规律的噪声模式;在数据选择或移除任务中,当首先移除高价值样本时,模型效用应下降得更快,从而证明估值排名的有效性。

## III 问题形式化

为解决传统沙普利值方法在时间序列数据中的局限性,本文提出了三种逐步增强的方法,形成了从基础到高级估值的完整技术框架。在保留沙普利值理论严谨性的同时,这三种方法通过不同的技术路线将时间维度纳入数据估值过程,从而实现了对时间序列数据价值的准确量化。

### III-A 符号和数据

令训练数据集为

$$ D = \{ (x_i, y_i, t_i) \}_{i=1}^N, \quad (1) $$

其中 $x_i \in \mathbb{R}^d$ 表示特征向量,$y_i \in \mathcal{Y}$ 表示标签,$t_i$ 表示时间戳。本文关注监督学习设置,以分类任务为主要示例。令 $\mathcal{A}(\cdot)$ 表示学习算法,它接收训练子集 $S \subseteq D$ 作为输入,并输出模型 $f_S = \mathcal{A}(S)$。

令验证集为

$$ D_{\mathrm{val}} = \{ (x_j^{\mathrm{val}}, y_j^{\mathrm{val}}) \}_{j=1}^{N_{\mathrm{val}}}, \quad (2) $$

其用于

相似文章

用于时间序列预测的仅解码器基础模型

Papers with Code Trending

本文介绍了一篇关于时间序列基础模型(TimeFM)的研究论文,这是一种仅解码器模型,通过借鉴大型语言模型技术,在多样化的时间序列数据集上实现了近乎最佳的零样本性能。

SDFlow:用于时间序列生成的相似性驱动流匹配

arXiv cs.AI

本文介绍了 SDFlow,这是一种用于时间序列生成的相似性驱动流匹配框架,旨在解决自回归模型中的暴露偏差问题。通过在冻结的 VQ 潜在空间中进行低秩流形分解,SDFlow 实现了最先进的性能并显著提升了推理速度。