超越分词:面向时间序列问答的直接时间步嵌入与对比对齐

arXiv cs.CL 论文

摘要

本文介绍CADE,一个用于时间序列问答的框架,它直接将每个时间步映射到LLM嵌入空间,并使用单向监督对比损失将时间序列表示与冻结的文本锚点对齐,在Time-MQA基准测试上超越了现有基线。

arXiv:2606.18986v1 Announce Type: new 摘要:近期大语言模型(LLM)的进步催生了时间序列问答(TSQA),它将时间序列分析表述为自然语言问答。然而,直接将原始数值序列输入LLM会遭遇分词瓶颈:字节对编码将连续值分割成不稳定的标记,其嵌入缺乏有意义的度量结构,导致量级、尺度和趋势信息的丢失。先前方法使用基于补丁的编码器将序列分割成固定窗口,锁定单一粒度,从而破坏模式并隐藏精确的时间步,且通过一个独立模块(该模块很少能在不同长度或采样率的数据集间迁移)实现。为解决这一挑战,我们提出CADE(Contrastive Alignment with Direct Embedding,直接嵌入对比对齐),一种基于两个关键组件构建的新型TSQA框架:直接时间步嵌入和语义对齐。该框架通过逐点线性编码器和MLP投影仪将每个时间步直接映射到LLM嵌入空间,保留精确的索引级访问,同时消除对补丁和填充的需求。为进一步弥合时间序列与语言表示之间的语义鸿沟,我们引入一种新颖的单向监督对比损失,将时间序列嵌入与冻结的类名文本锚点对齐。在公共Time-MQA基准上的实验结果表明,我们的框架在六个TSQA任务上持续提升性能,优于开源和专有LLM基线。
查看原文
查看缓存全文

缓存时间: 2026/06/18 05:47

# 直接时间步嵌入与对比对齐用于时间序列问答 来源:https://arxiv.org/html/2606.18986 ###### 摘要 大语言模型的最新进展催生了时间序列问答(TSQA),它将时间序列分析转化为自然语言问答形式。然而,将原始数值序列直接输入 LLM 会遭遇分词瓶颈:Byte Pair Encoding 将连续值分割成不稳定的词元,其嵌入缺乏有意义的度量结构,导致幅度、尺度和趋势信息丢失。先前的方法使用基于分块的编码器,将序列分割成固定窗口,锁定了一种粒度,这会破坏模式并隐藏精确的时间步,并且通过一个单独的模块实现,该模块很难在具有不同长度或采样率的数据集间迁移。为解决这一挑战,我们提出了 CADE(直接嵌入对比对齐),这是一个基于两个关键组件构建的新型 TSQA 框架:直接时间步嵌入和语义对齐。该框架通过逐点线性编码器和 MLP 投影器将每个时间步直接映射到 LLM 嵌入空间,保留了精确的索引级访问,同时消除了分块和填充的需要。为了进一步弥合时间序列与语言表示之间的语义差距,我们引入了一种新颖的单向监督对比损失,将时间序列嵌入与冻结的类名文本锚点对齐。在公开的 Time-MQA 基准上的实验结果表明,我们的框架在六个 TSQA 任务上持续提升了性能,优于开源和专有 LLM 基线。

## 1 引言

时间序列分析支撑着异常检测、分类、预测和插补等关键任务,应用涵盖医疗监测、工业维护和金融建模 (Wen et al., 2023 (https://arxiv.org/html/2606.18986#bib.bib36))。传统深度学习模型在捕捉时间依赖性方面取得了强劲成果 (Zeng et al., 2023 (https://arxiv.org/html/2606.18986#bib.bib29); Wu et al., 2023 (https://arxiv.org/html/2606.18986#bib.bib30); Nie et al., 2023 (https://arxiv.org/html/2606.18986#bib.bib31)),而大语言模型 (LLM) 的崛起展示了其在各个领域的卓越推理和泛化能力 (Achiam et al., 2023 (https://arxiv.org/html/2606.18986#bib.bib32); Liu et al., 2024a (https://arxiv.org/html/2606.18986#bib.bib33); Yang et al., 2025 (https://arxiv.org/html/2606.18986#bib.bib34)),这激发了人们将其能力扩展到时间序列的努力。大多数现有方法将 LLM 用作特征提取器或辅助模块,而非端到端求解器 (Jin et al., 2024 (https://arxiv.org/html/2606.18986#bib.bib3); Sun et al., 2024 (https://arxiv.org/html/2606.18986#bib.bib4); Zhou et al., 2023 (https://arxiv.org/html/2606.18986#bib.bib35))。一种更具雄心的范式——时间序列问答(TSQA),将每个任务重新表述为一个自然语言问题,并让 LLM 直接生成答案。例如,来自可穿戴加速度计的 3D 步态加速度可以被构造为一个结构化问题,由 LLM 诊断该样本是否指示冻结步态。然而,将原始时间序列输入 LLM 会引发一个基本的表示问题:标准分词器难以编码连续的数值。

参阅图注

图 1:时间序列表示策略的比较。

核心困难在于 LLM 如何表示连续数值,而这源于分词层面。Byte Pair Encoding (BPE) (Sennrich et al., 2016 (https://arxiv.org/html/2606.18986#bib.bib37)) 是大多数 LLM 的标准分词器,它根据文本中的频率模式构建词汇表,其中数字稀疏且呈长尾分布。因此,它根据文本共现而非位值来合并数字:像 182.62 这样的值可能被分割成 [18]、[2.]、[62] 等片段。这种切分也依赖于上下文,相同的数字在不同上下文中会被不同地分词,因此模型永远不会接收到两个数值在幅度上接近的稳定信号。单个数值因此被分裂成不稳定的符号,这些符号不携带任何度量结构。因此,模型无法恢复幅度、尺度或趋势——这些正是时间序列推理所依赖的属性——这从根本上限制了当前方法在 TSQA 上的可靠性。

为了绕过分词,先前基于 LLM 的时间序列方法 (Wang et al., 2025b (https://arxiv.org/html/2606.18986#bib.bib16); Jin et al., 2024 (https://arxiv.org/html/2606.18986#bib.bib3); Xie et al., 2025 (https://arxiv.org/html/2606.18986#bib.bib27)) 采用基于分块的编码器,将序列分割成固定长度的窗口,并将每个窗口投影成一个连续嵌入。这将模型锁定在训练前固定的单一时间粒度上:分块长度施加的窗口边界可能会横跨有意义的模式,并将不同的时间步折叠成一个词元,使得模型无法自然地识别精确的时间索引。对于 TSQA,这样的编码器也是一个独立的、通常是预训练的模块 (Wang et al., 2025b (https://arxiv.org/html/2606.18986#bib.bib16)),它增加了参数和特定领域的归纳偏差,而这些偏差在具有不同长度或采样率的数据集间很难迁移。

我们提出了 CADE(直接嵌入对比对齐),它使用线性投影将每个时间序列值映射到一个连续嵌入,如图 1 (https://arxiv.org/html/2606.18986#S1.F1) 所示。与将数值分割成不携带幅度感的不稳定子词元的 BPE 不同,这种直接映射使每个值保持为单个连续向量,并将数值上接近的值在嵌入空间中放置在一起,从而恢复了文本分词所丢弃的度量结构。由于每个词元与一个时间步一一对应,模型可以访问任何单个索引,这对于在特定位置进行操作的任务(如插补)至关重要。此外,这不需要分块大小,也不需要填充:由于词元数量等于序列长度,相同的投影可以处理任意长度和采样率的序列,无需重新分割或针对每个数据集重新调优,保留了原始时间分辨率,并让 LLM 的注意力机制可以直接建模局部和长程依赖。

为了进一步将时间序列嵌入与 LLM 的嵌入空间对齐,我们添加了一个辅助的单向监督对比损失,该损失利用时间序列分类数据构建。对于每个分类样本,它将时间序列嵌入拉向其类名文本嵌入,并推离其他类别,同时文本锚点保持冻结,以便仅将时间序列一侧移入 LLM 的词汇空间。尽管该信号仅来自分类样本,但它更新的编码器和投影器被所有六个任务共享;因此,该损失正则化了共享通路,而不仅仅是拟合分类,从而产生更具判别性和语义基础的表示。

本研究的主要贡献如下:

- • 据我们所知,这是首批使用轻量级线性编码器(而非基于分块的编码器)将时间序列值映射为连续嵌入,用于多任务时间序列问答的工作之一。尽管设计简单,但这种设计显著提升了 LLM 在 TSQA 任务上的性能。
- • 我们引入了一种新颖的单向监督对比损失,将投影后的时间序列嵌入与冻结的类文本锚点对齐,加强了时间序列特征与 LLM 语言推理之间的语义对应关系。
- • 通过在 Time-MQA 数据集上的大量实验,我们表明 CADE 在性能上达到或超越了开源和专有 LLM。CADE 及所有相关基线模型的源代码可在 https://github.com/YafengWu/CADE 公开获取。

## 2 相关工作

### 2.1 用于时间序列分析的大语言模型

近期工作探索了通过两个主要方向将 LLM 应用于时间序列任务。首先,基于提示的方法,如 PromptCast (Xue and Salim, 2023 (https://arxiv.org/html/2606.18986#bib.bib1)) 和 LLMTime (Gruver et al., 2023 (https://arxiv.org/html/2606.18986#bib.bib2)),将数值序列序列化为文本提示以进行直接预测。其次,多模态架构,如 Time-LLM (Jin et al., 2024 (https://arxiv.org/html/2606.18986#bib.bib3)) 和 UniTime (Liu et al., 2024c (https://arxiv.org/html/2606.18986#bib.bib5)),将时间表示与语言模型嵌入对齐以进行跨域预测。并行的工作线开发了专门的时间序列基础模型,如 TimesFM (Das et al., 2024 (https://arxiv.org/html/2606.18986#bib.bib6))、Chronos (Ansari et al., 2024 (https://arxiv.org/html/2606.18986#bib.bib7)) 和 Time-MOE (Shi et al., 2025 (https://arxiv.org/html/2606.18986#bib.bib18)),这些模型专门在时间数据上预训练变换器以进行预测任务。这些模型主要设计用于预测而非基于文本的问答,因此不能用于问答,也不在我们的比较范围内。在剩余的两个方向中,多模态方法没有充分利用预训练 LLM 的推理和生成能力,而基于提示的方法则受困于不精确的数值表示。这促使我们寻求一种统一的方法,使 LLM 能够直接对时间序列输入进行推理并解决多样化的时间任务。

### 2.2 时间问答

最近有几项工作研究了时间序列数据上的问答。ChatTS (Xie et al., 2025 (https://arxiv.org/html/2606.18986#bib.bib27)) 是一个时间序列多模态 LLM,在合成的时间序列-文本对上进行训练以实现时间理解和推理,针对的是开放式时间序列推理,而非我们研究的面向任务的多任务场景。ChatTime (Wang et al., 2025a (https://arxiv.org/html/2606.18986#bib.bib28)) 是一个预训练的时间序列基础模型,用于预测和时间序列问答。我们专注于使通用 LLM 适应时间序列问答,因此仅与现有的基于 LLM 的适应方法进行比较,而不是与时间序列基础模型比较。

Time-MQA (Kong et al., 2025 (https://arxiv.org/html/2606.18986#bib.bib15)) 引入了 Time-MQA 数据集,并使用 LoRA 直接在多样化的时间任务(如分类、异常检测和预测)上微调 LLM。ITFormer (Wang et al., 2025b (https://arxiv.org/html/2606.18986#bib.bib16)) 将 Q-Former 结构适应于时间序列问答任务,并发布了 EngineMT-QA 数据集。尽管取得了进展,但这些方法继承了上述表示局限性:Time-MQA 通过 LLM 的文本分词器输入数值,因此遭受不稳定的数字切分和缺乏数轴几何的问题;而 ITFormer 和 ChatTS 依赖基于分块的编码器,固定了单一时间粒度并阻碍了逐时间步生成。相比之下,我们通过轻量级线性编码器和 MLP 投影器将每个时间步直接映射到 LLM 的嵌入空间,避免了分词伪影和分块级粒度约束。

超越表示层面,受到视觉-语言对齐(如 LLaVA (Liu et al., 2023 (https://arxiv.org/html/2606.18986#bib.bib10)) 和 InstructBLIP (Dai et al., 2023 (https://arxiv.org/html/2606.18986#bib.bib11)) 等模型)的启发,对齐时间序列和自然语言本身就是一个活跃的方向 (Liu et al., 2025b (https://arxiv.org/html/2606.18986#bib.bib20)),方法包括基于交叉注意力 (Jin et al., 2024 (https://arxiv.org/html/2606.18986#bib.bib3); Liu et al., 2024b (https://arxiv.org/html/2606.18986#bib.bib21))、对比学习 (Chen et al., 2025 (https://arxiv.org/html/2606.18986#bib.bib23); Dong et al., 2025 (https://arxiv.org/html/2606.18986#bib.bib24); Sun et al., 2024 (https://arxiv.org/html/2606.18986#bib.bib4)) 和知识蒸馏 (Liu et al., 2025a (https://arxiv.org/html/2606.18986#bib.bib22))。然而,现有的对比方法如 TS-CLIP (Chen et al., 2025 (https://arxiv.org/html/2606.18986#bib.bib23))、TimesCLIP (Dong et al., 2025 (https://arxiv.org/html/2606.18986#bib.bib24)) 和 TEST (Sun et al., 2024 (https://arxiv.org/html/2606.18986#bib.bib4)),要么将对比学习应用于狭窄任务(如分类或预测)而不涉及 LLM,要么将 LLM 仅视为模式提取器并附加任务特定的头部。相比之下,我们通过单向监督对比损失将时间步嵌入与 LLM 的词汇空间对齐,直接在一个统一框架内为跨六个任务的时间序列问答应用对比对齐。

## 3 方法

### 3.1 问题公式化

我们研究*时间序列问答*,其中要求 LLM 回答基于单变量时间序列的自然语言问题。每个样本是一个三元组 \((x, q, \tau)\),其中 \(x = \{x_1, x_2, \dots, x_T\}\) 且 \(x_t \in \mathbb{R}\) 是一个长度为 \(T\) 的单变量时间序列,\(q\) 是一个自然语言提示,就 \(x\) 提出问题并包含统计特征,\(\tau\) 表示任务类型。序列长度 \(T\) 在不同样本间变化。我们考虑六种任务类型,\(\tau \in \{\text{异常检测, 分类, 多项选择, 对/错, 预测, 插补}\}\),并将它们统一在单个生成接口下:无论 \(\tau\) 为何,模型自回归地生成文本响应 \(R = \{r_1, \dots, r_L\}\),而不是依赖任务特定的输出头,其中 \(L\) 表示生成答案中的词元数量。形式上,模型定义条件分布 \(p_\theta(R \mid x, q) = \prod_{i=1}^L p_\theta(r_i \mid r_{<i}, x, q)\)。

### 3.2 输入表示

每个样本的输入是一个序列对:一个时间序列 \(x\) 和一个文本提示 \(q\)。我们通过提示的文本分词器和我们提出的直接时间序列编码器分别处理它们,然后将生成的词元嵌入拼接起来。时间序列在输入编码器之前进行归一化处理,通过减均值除以标准差,使其具有零均值和单位方差。归一化后的序列特征与一个包含原始统计信息的文本序列拼接。具体来说,提示 \(q\) 附加上以下文本:“以上是归一化后的时间序列数据。其原始数据具有以下统计信息:均值: [值], 标准差: [值], 最小值: [值], 最大值: [值], 中位数: [值]。” 这种设计让模型能够对归一化信号的形状进行推理,同时仍然以文本形式获取归一化所丢弃的绝对统计信息。

### 3.3 架构

如图 2 (https://arxiv.org/html/2606.18986#S3.F2) 所示,提出的 CADE 框架由四个组件组成:(i) 一个*线性时间序列编码器*,将归一化序列映射到连续特征空间;(ii) 一个 *MLP 投影器*,通过将编码特征投影到 LLM 嵌入空间来桥接时间序列和语言模态;(iii) 一个 *LLM* 模块:一个预训练的 LLM,从融合的时间序列和文本词元中自回归地生成答案;(iv) 一个*单向 SupCon 损失*,将投影后的时间序列嵌入与针对分类任务的冻结类文本嵌入对齐。我们在下面描述前三个组件,并在第 3.4 节详述对比模块。

**线性时间序列编码器 (Linear TS Encoder).** 遵循视觉-语言模型(如 LLaVA (Liu et al., 2023 (https://arxiv.org/html/2606.18986#bib.bib10)))的设计理念,这些模型通过图像编码器后接投影模块将非文本模态桥接到 LLM,CADE 通过类似的*编码器-投影器*对将时间序列映射到语言模型:一个线性时间序列编码器产生连续特征序列,一个 MLP 投影器将其与 LLM 嵌入空间对齐。具体地,

相似文章