TSFMAudit: 时间序列基础模型预测中的数据污染审计
摘要
本文介绍了TSFMAudit,这是首个用于审计时间序列基础模型预训练数据污染的方法,通过探针适应动态来检测异常高效的微调,从而指示先前的数据暴露。
arXiv:2605.26161v1 公告类型:新
摘要:时间序列基础模型(TSFMs)越来越多地在大型语料库上进行预训练,这引发担忧:评估数据集可能在预训练期间已被暴露,从而产生过于乐观的性能估计。在时间序列中审计此类污染具有挑战性,因为信号是连续且异质的,并且通常缺乏语料库文档。据我们所知,这是首个研究TSFMs预训练污染审计的工作。我们正式定义了TSFMs的预训练污染审计问题,并提出了一种基于探针适应动态的方法TSFMAudit。我们的关键直觉是,污染表现为异常高效的适应:在微调探针后,受污染的数据集往往表现出更快的损失减少和更小的骨干网络移动。我们在6个TSFMs和187个数据集上评估了TSFMAudit,使用文档化的训练源证据作为监督,并与从LLM文献中改编的10个竞争基线进行比较。
查看缓存全文
缓存时间: 2026/05/27 09:03
# TSFMAudit:预测时间序列基础模型中的数据污染审计 来源:https://arxiv.org/html/2605.26161 李弘恺 浙江大学 22521276@zju\.edu\.cn&谢世峰^1 巴黎高等电信学院 shifeng\.xie@telecom\-paris\.fr&沈乐飞 浙江大学 lefeishen@zju\.edu\.cn&李卓 道富科技(浙江)有限公司 lizhuo@zju\.edu\.cn&陈谋祥 浙江大学 chenmx@zju\.edu\.cn&张晓斌 浙江大学 22421162@zju\.edu\.cn&傅涵 浙江大学 11821003@zju\.edu\.cn&孙建伶 浙江大学 sunjl@zju\.edu\.cn&任晓雪 浙江大学 xxren@zju\.edu\.cn&刘成浩 Datadog twinsken@gmail\.com^共同第一作者。^通讯作者。本工作完成于刘成浩加入Datadog之前。 ###### 摘要 时间序列基础模型(TSFM)越来越多地在大型语料库上进行预训练,这引发了一个担忧:评估数据集可能在预训练期间已被暴露,从而导致对性能的估计过于乐观。审计这种污染在时间序列领域具有挑战性,因为信号是连续且异质的,且常常缺乏语料库文档。据我们所知,这是首个研究TSFM预训练污染审计的工作。我们正式定义了TSFM预训练污染审计问题,并提出TSFMAudit,一种基于探测适应动态的方法。我们的关键直觉是:污染表现为异常高效的适应——经过微调探测后,受污染数据集往往表现出更快的损失下降和更小的主干移动。我们在6个TSFM和187个数据集上评估TSFMAudit,使用文档化的训练来源证据作为监督,并与从LLM文献中改编的10个竞争基线进行比较。 ## 1 引言 时间序列基础模型(TSFM)因其在金融、交通、健康等领域的强大跨域能力而近来受到广泛关注(Li等,2025(https://arxiv.org/html/2605.26161#bib.bib1),2026(https://arxiv.org/html/2605.26161#bib.bib2);Rahimikia等,2025(https://arxiv.org/html/2605.26161#bib.bib3);Pulido和Rodrigues,2026(https://arxiv.org/html/2605.26161#bib.bib4))。尽管已有在纯合成数据上训练TSFM的 promising 尝试,但当前最先进的模型仍高度依赖从多样来源收集的大规模真实世界语料库(Goswami等,2024(https://arxiv.org/html/2605.26161#bib.bib5);Xie等,2026(https://arxiv.org/html/2605.26161#bib.bib6))。与此同时,广泛使用的评估基准本身也由多个公共来源汇编而成(Aksu等,2024(https://arxiv.org/html/2605.26161#bib.bib7);Qiao等,2026(https://arxiv.org/html/2605.26161#bib.bib8))。这种共享的多源预训练-评估流水线造成了重大的污染风险:用于评估的数据可能在预训练期间已被暴露(Meyer等,2026(https://arxiv.org/html/2605.26161#bib.bib9))。这种暴露会人为地夸大下游性能,从而偏斜我们对TSFM泛化能力的评估(Meyer等,2026(https://arxiv.org/html/2605.26161#bib.bib9);Aksu等,2024(https://arxiv.org/html/2605.26161#bib.bib7);Dong等,2024(https://arxiv.org/html/2605.26161#bib.bib10))。更重要的是,污染可能无意中发生(Meyer等,2026(https://arxiv.org/html/2605.26161#bib.bib9);Xu等,2024(https://arxiv.org/html/2605.26161#bib.bib11))。在时间序列数据中,相同的底层信号可能在经过重新缩放、重命名、重开窗或其他预处理变化后重新出现,同时保留几乎相同的内容(Meyer等,2026(https://arxiv.org/html/2605.26161#bib.bib9);Godahewa等,2021(https://arxiv.org/html/2605.26161#bib.bib12))。例如,Monash档案中的Elecdemand数据集是澳大利亚电力需求的1/1000缩放子集(Meyer等,2026(https://arxiv.org/html/2605.26161#bib.bib9))。为了确保TSFM基准测试的公平性和有效性,我们需要高效的污染审计方法(Meyer等,2026(https://arxiv.org/html/2605.26161#bib.bib9);Aksu等,2024(https://arxiv.org/html/2605.26161#bib.bib7);Dekoninck等,2024(https://arxiv.org/html/2605.26161#bib.bib13);Choi等,2025(https://arxiv.org/html/2605.26161#bib.bib14))。 污染审计在大语言模型(LLM)及相关领域中已被广泛研究。流行的方法包括:重叠检测(搜索直接或近似重复的基准内容)、记忆提取(测试模型是否能复现训练样本)、困惑度测试(标记异常低的模型损失)以及成员推断攻击(通过校准分数判断样本是否用于训练,常使用影子模型,即在受控数据分割上训练的辅助模型)(Yang等,2023(https://arxiv.org/html/2605.26161#bib.bib15);Shi等,2024(https://arxiv.org/html/2605.26161#bib.bib16);Carlini等,2021(https://arxiv.org/html/2605.26161#bib.bib17);Shokri等,2017(https://arxiv.org/html/2605.26161#bib.bib18);Carlini等,2022(https://arxiv.org/html/2605.26161#bib.bib19))。然而,这些方法并不能自然地迁移到TSFM,因为时间序列数据是连续、异质的,且往往仅在语料库级别有部分文档记录(Woo等,2024(https://arxiv.org/html/2605.26161#bib.bib20);Das等,2024(https://arxiv.org/html/2605.26161#bib.bib21);Qiu等,2024(https://arxiv.org/html/2605.26161#bib.bib22);Garza等,2024(https://arxiv.org/html/2605.26161#bib.bib23);Goswami等,2024(https://arxiv.org/html/2605.26161#bib.bib5))。例如,泄漏确实可能导致异常低的损失,Dekoninck等人(2024(https://arxiv.org/html/2605.26161#bib.bib13))的方法利用这一信号进行污染检测;然而,一条平滑的季节性序列即使在模型从未见过的情况下也可能产生远低于正常泛化水平的损失,这使得静态损失或困惑度类标准不可靠(Liu等,2022(https://arxiv.org/html/2605.26161#bib.bib24);Jiang等,2024(https://arxiv.org/html/2605.26161#bib.bib25))。同样,成员推断攻击通常需要多个影子模型来校准成员分数,但大规模复现TSFM预训练成本高昂(Shokri等,2017(https://arxiv.org/html/2605.26161#bib.bib18);Carlini等,2022(https://arxiv.org/html/2605.26161#bib.bib19);Hayes等,2025(https://arxiv.org/html/2605.26161#bib.bib26))。这些局限性要求一种专门为TSFM设计的污染审计方法。 我们做出以下实证观察:在微调探测下,受污染数据集往往比清洁数据集表现出更快的损失下降和更小的主干移动,如图1(https://arxiv.org/html/2605.26161#S4.F1)所示,并由表4(https://arxiv.org/html/2605.26161#S5.T4)中的特征消融实验证实。受这一现象启发,我们提出TSFMAudit,一种基于学习动态的TSFM污染审计框架。TSFMAudit提取探测时间信号,如损失下降和参数位移,来推断污染风险。我们将贡献总结如下: - •据我们所知,这是首个研究TSFM预训练污染审计的工作。我们正式定义了数据集级别的污染审计目标。 - •我们提出TSFMAudit¹,一个专门为TSFM设计的污染审计框架,通过探测时的适应动态推断污染风险。 - •我们在6个TSFM上评估TSFMAudit,使用其报告的预训练语料库、GIFT-Eval(Aksu等,2024(https://arxiv.org/html/2605.26161#bib.bib7))和TIME(Qiao等,2026(https://arxiv.org/html/2605.26161#bib.bib8))基准,共覆盖187个数据集。与从LLM文献改编的10个污染审计基线相比,TSFMAudit实现了持续更强的检测性能。 ## 2 相关工作 #### TSFM与基准测试的污染担忧。近年来,许多时间序列预测工作已从小规模、针对特定数据集的评估转向标准化的大规模基准,如M4、LSF和Monash档案,并且随着时间序列基础模型的兴起,进一步转向广泛的零样本评估套件,如GIFT-Eval、TSFM-Bench和TIME(Makridakis等,2020(https://arxiv.org/html/2605.26161#bib.bib27));Godahewa等,2021(https://arxiv.org/html/2605.26161#bib.bib12));Wu等,2021(https://arxiv.org/html/2605.26161#bib.bib28));Aksu等,2024(https://arxiv.org/html/2605.26161#bib.bib7));Li等,2025(https://arxiv.org/html/2605.26161#bib.bib1));Qiao等,2026(https://arxiv.org/html/2605.26161#bib.bib8))。与此同时,TSFM本身越来越多地在大规模异质语料库上训练,这些语料库来自多样的真实世界和合成来源,反映了该领域构建跨领域通用预测器的雄心(Ansari等,2024(https://arxiv.org/html/2605.26161#bib.bib29));Das等,2024(https://arxiv.org/html/2605.26161#bib.bib21));Woo等,2024(https://arxiv.org/html/2605.26161#bib.bib20));Auer等,2025(https://arxiv.org/html/2605.26161#bib.bib30))。然而,这一发展也引发了对基准有效性的新担忧:许多现代基准通过重用公共数据集汇编而成,评估数据可能与预训练语料库重叠或保持隐式联系,导致隐藏的信息泄漏和对零样本泛化的过度乐观估计(Aksu等,2024(https://arxiv.org/html/2605.26161#bib.bib7));Meyer等,2026(https://arxiv.org/html/2605.26161#bib.bib9))。这个问题在时间序列中尤为严重,因为碎片化的命名和版本管理、弱的语义透明度以及强的时间依赖性使得污染比其他模态更难检测(Meyer等,2026(https://arxiv.org/html/2605.26161#bib.bib9))。这些担忧最近激发了一波新的基准设计浪潮,聚焦于更新鲜的数据源和更严格的评估协议,旨在减少泄漏并恢复TSFM比较的可信度(Aksu等,2024(https://arxiv.org/html/2605.26161#bib.bib7));Qiao等,2026(https://arxiv.org/html/2605.26161#bib.bib8))。 #### LLM中的污染审计。大语言模型激发了大量关于污染审计的文献。现有方法主要分为四类:基于n-gram或token级匹配的语料库端重叠检测、测试基准内容能否被复现的记忆或提取攻击、将异常低似然视为先前暴露证据的困惑度方法,以及成员推断攻击(MIA),如LiRA,用于估计样本是否包含在训练中(Brown等,2020(https://arxiv.org/html/2605.26161#bib.bib31));OpenAI,2023(https://arxiv.org/html/2605.26161#bib.bib32));Carlini等,2021(https://arxiv.org/html/2605.26161#bib.bib17),2023(https://arxiv.org/html/2605.26161#bib.bib33));Dekoninck等,2024(https://arxiv.org/html/2605.26161#bib.bib13));Shi等,2024(https://arxiv.org/html/2605.26161#bib.bib16));Oren等,2024(https://arxiv.org/html/2605.26161#bib.bib34));Carlini等,2022(https://arxiv.org/html/2605.26161#bib.bib19))。尽管LLM中污染审计的文献丰富,但这些方法不能直接迁移到TSFM。基于重叠和基于提取的方法依赖于离散token或逐字匹配,而时间序列是连续值,相同的底层信号可能在重新缩放、重采样、重开窗或重命名后重新出现,使得精确匹配既脆弱又不完整(Yang等,2023(https://arxiv.org/html/2605.26161#bib.bib15));Jiang等,2024(https://arxiv.org/html/2605.26161#bib.bib25));Meyer等,2026(https://arxiv.org/html/2605.26161#bib.bib9))。困惑度或损失标准在时间序列中尤其不可靠,因为许多数据集本质上是容易预测的:平滑趋势或强季节性即使在没有先验暴露的情况下也能产生低误差,因此静态低损失本身并不能作为污染的有效代理(Dekoninck等,2024(https://arxiv.org/html/2605.26161#bib.bib13));Jiang等,2024(https://arxiv.org/html/2605.26161#bib.bib25));Sainz等,2023(https://arxiv.org/html/2605.26161#bib.bib35));Dong等,2024(https://arxiv.org/html/2605.26161#bib.bib10))。成员推断方法面临另一种不匹配:它们通常设计用于样本级别的成员资格,且常需要影子模型校准,而TSFM污染更自然地是一个数据集级别的现象,且完整复现TSFM预训练成本高昂得令人望而却步(Shokri等,2017(https://arxiv.org/html/2605.26161#bib.bib18));Carlini等,2022(https://arxiv.org/html/2605.26161#bib.bib19))。 #### 我们的定位。我们的工作通过将TSFM的污染审计设定在一个现实场景中来弥补这一空白:审计者可以探测模型行为并运行有限的微调,但不能检查完整的预训练语料库或大规模复现预训练。我们的方法TSFMAudit使用适应动态而非静态损失作为主要信号,遵循一个更广泛的观察:训练动态能够揭示数据集和模型行为(Swayamdipta等,2020(https://arxiv.org/html/2605.26161#bib.bib36));Frankle等,2020(https://arxiv.org/html/2605.26161#bib.bib37));Zhang等,2017(https://arxiv.org/html/2605.26161#bib.bib38))。据我们所知,最相关的工作是Dekoninck等人(2024(https://arxiv.org/html/2605.26161#bib.bib13)),该工作研究了离散语言基准中基于性能的污染检测,而TSFMAudit则专注于连续时间序列,且不需要影子模型校准。 ## 3 问题形式化 在本节中,我们正式定义多变量TSFM的污染审计问题。我们介绍预测设置、预训练污染的概念以及审计目标。 #### 设置 我们考虑一个时间序列预测设置,包含回顾长度 \(L\)、预测视界 \(H\) 和变量(通道)数量 \(P\)。令 \(f_{\bm{\theta}}: \mathbb{R}^{L\times P} \to \mathbb{R}^{H\times P}\) 表示一个候选TSFM,参数为 \(\bm{\theta}\)。对于样本 \(i\),令 \(\mathbf{H}_i \in \mathbb{R}^{L\times P}\) 为历史输入,\(\mathbf{Y}_i \in \mathbb{R}^{H\times P}\) 为未来目标。遵循监督预测公式,我们定义第 \(i\) 个样本和一个包含 \(n\) 个样本的待审计数据集为: \[ \mathbf{Z}_i := (\mathbf{H}_i; \mathbf{Y}_i) \in \mathbb{R}^{(L+H)\times P}, \qquad \mathcal{D} := \{\mathbf{Z}_i\}_{i=1}^n. \] #### 污染 令 \(\mathcal{D}^{\mathrm{pt}} = \bigcup_{j=1}^J \mathcal{D}^{\mathrm{pt}}_j\) 为与候选模型 \(f_{\bm{\theta}}\) 关联的预训练语料库,其中 \(J\) 是预训练来源的数量。这里,\(\mathcal{D}^{\mathrm{pt}}\) 被理解为预训练来源时间序列的集合。对于每个待审计样本 \(\mathbf{Z}_i\),令 \(\mathbf{X}_i\) 表示从中提取 \(\mathbf{Z}_i\) 的底层来源时间序列,例如通过开窗或预处理步骤。相似文章
AgentForesight:多智能体系统中用于早期故障预测的在线审计
本文介绍了 AgentForesight,这是一个用于基于大语言模型(LLM)的多智能体系统的在线审计和早期故障预测框架。文章提出了一个新数据集 AFTraj-22K,以及一个专用模型 AgentForesight-7B,该模型在检测轨迹执行过程中的决定性错误方面优于领先的专有模型。
评估基础模型在时间序列预测中的运行可行性
本文对基础模型在时间序列预测中的应用进行了评估,与四种操作领域中的监督学习方法进行了比较,并提出了一种复杂性路由器,用于选择性地将序列分配给最优模型类别,以平衡准确性和推理成本。
用于时间序列预测的仅解码器基础模型
本文介绍了一篇关于时间序列基础模型(TimeFM)的研究论文,这是一种仅解码器模型,通过借鉴大型语言模型技术,在多样化的时间序列数据集上实现了近乎最佳的零样本性能。
具有随时有效保证的 AI 系统自适应审计
本文引入了一种统计框架,利用安全随时有效推断(SAVI)技术对 AI 系统进行自适应审计,旨在基于有限数据得出严谨的结论。文章提出了一种“通过赌博进行测试”的方法,以验证模型的鲁棒性,同时在自适应采样过程中控制第一类错误。
早期数据暴露提高后续微调的鲁棒性
本文表明,将后训练数据混合到预训练中(早期暴露)可以提高模型在后续微调后保留能力的鲁棒性,挑战了即时后训练性能预测保留的观点。对135M和1B模型的受控实验表明,早期暴露一致地改善了上游保留和下游性能之间的权衡。