时间序列基础模型是否已准备好处理电子鼻数据?对其嵌入表示的实证评估
摘要
本文系统评估了时间序列基础模型(如 Chronos-2 和 MOMENT)在电子鼻数据上进行气体识别和浓度预测的效果。研究发现,微调是必要的,并且将 TSFM 嵌入表示与专门模型融合可以提升性能。
arXiv:2606.27672v1 公告类型:新
摘要:受自然语言处理和计算机视觉进展的启发,近期出现了“时间序列基础模型”(TSFMs),其承诺在多种时间序列任务(包括预测、分类和异常检测)以及医疗、气候科学和制造业等领域具有强大的泛化能力。然而,它们在气体传感数据上的实用性仍未得到充分探索。为填补这一空白,本文系统评估了近期 TSFMs 在电子鼻数据上的表现。具体而言,我们研究了包括 Chronos-2 和 MOMENT 在内的代表性 TSFMs 所产生的嵌入表示是否为气体识别和浓度预测提供了有效表征。我们发现,在电子鼻数据上实现满意性能需要微调,并且将 TSFM 嵌入表示与专门预测模型学习到的表征相融合可进一步提升性能,这表明了当前 TSFMs 在气体传感应用中的潜力与局限性。
查看缓存全文
缓存时间: 2026/06/29 05:24
# 时间序列基础模型能否适用于电子鼻数据?对其嵌入表示的经验评估
来源: https://arxiv.org/html/2606.27672
###### 摘要
受自然语言处理和计算机视觉领域进展的启发,“时间序列基础模型”(TSFMs)近期被提出,有望在多种时间序列任务(包括预测、分类和异常检测)以及医疗健康、气候科学、制造等多个领域实现强泛化能力。然而,这些模型在*气体传感*数据上的效用尚未得到充分探索。为填补这一空白,本文系统地评估了最新的TSFM在电子鼻(E-Nose)数据上的表现。具体而言,我们研究了代表性的TSFM(包括Chronos-2和MOMENT)产生的嵌入表示是否为气体识别和浓度预测提供了有效的表征。结果表明,微调是在E-Nose数据上获得满意性能的必要条件;将TSFM嵌入与专用预测模型学习的表示相融合可以进一步提升性能,这表明当前TSFM在气体传感应用中既具有潜力也存在局限。
## I 引言
近年来,先进的时序基础模型(TSFMs)被引入,旨在开发能够支持跨多种时序领域预测任务的通用模型 [Goswami et al., 2024 (https://arxiv.org/html/2606.27672#bib.bib3), Ansari et al., 2025 (https://arxiv.org/html/2606.27672#bib.bib2), Garza et al., 2023 (https://arxiv.org/html/2606.27672#bib.bib5)]。通过在大型时间序列数据集上进行预训练,这些模型有望学习到可复用的时间表征,并可在零样本设置中直接应用于下游任务,或通过有限的任务特定数据微调来适应。近期研究报告了在医疗健康 [Zhang et al., 2025b (https://arxiv.org/html/2606.27672#bib.bib6), Li et al., 2026 (https://arxiv.org/html/2606.27672#bib.bib7)]、气候系统 [Rangaraj et al., 2025 (https://arxiv.org/html/2606.27672#bib.bib9)] 和制造 [Zhang et al., 2025a (https://arxiv.org/html/2606.27672#bib.bib8)] 等领域的有希望结果,表明包括 Chronos-2 [Ansari et al., 2025 (https://arxiv.org/html/2606.27672#bib.bib2)] 和 MOMENT [Goswami et al., 2024 (https://arxiv.org/html/2606.27672#bib.bib3)] 在内的 TSFM 能够从预训练数据中捕获可迁移的时间模式,并泛化到未见过的时序数据。
然而,TSFM 对电子鼻(E-Nose)数据的泛化能力仍基本未得到探索,而 E-Nose 系统已广泛应用于环境与食品安全监测等实际领域中的气体与气味检测以及浓度水平估计 [Rossi and Brunelli, 2014 (https://arxiv.org/html/2606.27672#bib.bib11), Sberveglieri et al., 2014 (https://arxiv.org/html/2606.27672#bib.bib10)]。在 E-Nose 中,配置了交叉响应的金属氧化物(MOX)传感器阵列,对目标气体(包括挥发性有机化合物 VOC)表现出不同的灵敏度模式,从而产生用于气体分析的跨传感器响应模式。因此,生成的数据本质上是多变量且时序性的,使其成为 TSFM 的天然候选。
参见图注 图 1:说明所设计流水线的示意图,用于检验每个时序编码器 φ(例如 Chronos-2)提取的嵌入表示的有效性。分别训练分类头和回归头,基于嵌入表示 r 来预测气体类型 y_g 和浓度 y_c。
为填补这一空白,我们研究预训练 TSFM 产生的嵌入表示是否编码了有信息量的 E-Nose 时间序列信号表征(参见图 1 (https://arxiv.org/html/2606.27672#S1.F1))。我们选择 Chronos-2 [Ansari et al., 2025 (https://arxiv.org/html/2606.27672#bib.bib2)] 和 MOMENT [Goswami et al., 2024 (https://arxiv.org/html/2606.27672#bib.bib3)] 作为代表性的 TSFM,并将它们用作编码器,后接任务特定的预测头。评估在一个实际的多任务场景中进行,其中气体类型识别作为一个分类任务,浓度水平预测作为一个回归任务。
据我们所知,这是首个针对 E-Nose 传感器时间序列数据研究 TSFM 的工作。由于这些基础模型的公开描述*并未*指出在化学气体传感器数据上进行预训练,本研究考察了它们对气体传感任务的域外泛化能力和可迁移性。我们设计了实验来回答以下研究问题:
1. 1. 在不微调的情况下,预训练的 TSFM 是否为气体类型和浓度预测提供了有用的嵌入表示?
2. 2. 基于 TSFM 的嵌入表示能否优于针对气体传感的特定领域模型?
3. 3. 结合 TSFM 嵌入表示与领域特定嵌入表示是否能进一步提升性能?
加权平均 B1 B2 B3 B4
Acc. F1 Acc. F1 Acc. F1 Acc. F1 Acc. F1
MLP .704 .704 .654 .654 .896\mathbf{.896}±.028\pm.028 .894\mathbf{.894}±.028\pm.028 .923\mathbf{.923}±.034\pm.034 .918\mathbf{.918}±.037\pm.037 .517 .517 ±.028\pm.028 .393 .393 ±.037\pm.037 .258 .258 ±.006\pm.006 .167 .167 ±.015\pm.015
DBFE .667 .667 .632 .632 .507 .507 ±.033\pm.033 .472 .472 ±.056\pm.056 .777 .777 ±.055\pm.055 .747 .747 ±.081\pm.081 .735 .735 ±.124\pm.124 .714 .714 ±.148\pm.148 .629 .629 ±.142\pm.142 .556 .556 ±.143\pm.143
Chronos-2
Frozen .496 .496 .404 .404 .479 .479 ±.015\pm.015 .321 .321 ±.009\pm.009 .579 .579 ±.093\pm.093 .552 .552 ±.115\pm.115 .271 .271 ±.018\pm.018 .139 .139 ±.031\pm.031 .817 .817 ±.075\pm.075 .802 .802 ±.100\pm.100
Fine-Tuned .845 .845 .839 .839 .881 .881 ±.036\pm.036 .879 .879 ±.038\pm.038 .813 .813 ±.015\pm.015 .806 .806 ±.014\pm.014 .890\mathbf{.890}±.031\pm.031 .891\mathbf{.891}±.029\pm.029 .750 .750 ±.142\pm.142 .723 .723 ±.170\pm.170
MOMENT
Frozen .474 .474 .387 .387 .602 .602 ±.016\pm.016 .515 .515 ±.016\pm.016 .583 .583 ±.046\pm.046 .515 .515 ±.042\pm.042 .296 .296 ±.018\pm.018 .191 .191 ±.027\pm.027 .354 .354 ±.006\pm.006 .271 .271 ±.009\pm.009
Fine-Tuned .453 .453 .361 .361 .619 .619 ±.023\pm.023 .558 .558 ±.030\pm.030 .379 .379 ±.033\pm.033 .289 .289 ±.042\pm.042 .356 .356 ±.066\pm.066 .245 .245 ±.037\pm.037 .463 .463 ±.031\pm.031 .341 .341 ±.012\pm.012
MLP + Chronos-2 .876\mathbf{.876} .876\mathbf{.876} .888 .888 ±.005\pm.005 .887 .887 ±.004\pm.004 .854 .854 ±.029\pm.029 .845 .845 ±.032\pm.032 .888 .888 ±.084\pm.084 .884 .884 ±.090\pm.090 .875\mathbf{.875}±.037\pm.037 .871\mathbf{.871}±.004\pm.004
表 I: 每个留出传感单元(B1–B4)的气体类型识别性能。总体结果以跨传感单元的样本加权平均报告,每个单元结果下方的较小值为三个随机划分的标准差。
## II 研究设计
### II-A 问题形式化
我们制定了一个实际的多任务学习问题,其中模型同时执行气体类型识别和浓度预测。形式上,每个样本表示为一个多变量时间序列矩阵,包含 τ 个时间步:X = [x_1, x_2, ..., x_τ]^⊤ ∈ ℝ^{τ×m},其中 x_t = [x_t^(1), x_t^(2), ..., x_t^(m)] ∈ ℝ^m 表示在时间步 t 由 m 个 MOX 传感器捕获的多通道响应向量。如图 1 (https://arxiv.org/html/2606.27672#S1.F1) 所示,编码器 φ 将每个样本 X 映射为一个紧凑的向量嵌入 r ∈ ℝ^d,然后由分类器 F 对气体类型 y_g ∈ {0, ..., n-1} 进行识别,并由回归器 G 对浓度 y_c ∈ ℝ 进行预测,其中 n 是可用的气体类型数量。回归器还利用分类器 F 的输出,根据预测的气体类型来条件化浓度预测。
分类和回归任务的性能均被评估,以确定每个编码器是否在学习的表示中捕获了有信息量的模式,该表示是任务特定预测头的主要输入。
### II-B 基于TSFM的编码
在本工作中,我们评估 TSFM 作为编码器 φ 的能力。具体而言,我们采用 Chronos-2 [Ansari et al., 2025 (https://arxiv.org/html/2606.27672#bib.bib2)] 和 MOMENT [Goswami et al., 2024 (https://arxiv.org/html/2606.27672#bib.bib3)] 来研究它们的嵌入空间——从大规模多样化的时间序列数据中学习得到——是否能够为气体传感任务生成有信息量的表示 r。
Chronos-2 在合成时间序列数据集上为预测任务进行预训练,它同时使用时间注意力(捕获每个通道内的时间依赖关系)和组注意力(实现不同通道间的信息共享)。相比之下,MOMENT 在 Time-Series Pile [Goswami et al., 2024 (https://arxiv.org/html/2606.27672#bib.bib3)](一个大型公共时间序列数据集集合)上预训练,用于从剩余上下文中重建随机掩码的补丁序列。
Chronos-2 和 MOMENT 都首先将输入序列分割成非重叠的时间补丁,每个补丁最终通过一系列网络(包括基于 Transformer 的编码器和池化操作)映射为表示 r [Ansari et al., 2025 (https://arxiv.org/html/2606.27672#bib.bib2), Goswami et al., 2024 (https://arxiv.org/html/2606.27672#bib.bib3)]。为了获得用于下游任务(即气体类型和浓度预测)的紧凑表示,我们对传感器(变量)和时间补丁维度应用全局平均池化,从而为每个输入样本得到一个固定维度的表示 r ∈ ℝ^d。
加权平均 B1 B2 B3 B4
RMSE MAE RMSE MAE RMSE MAE RMSE MAE RMSE MAE
MLP 71.19 71.19 76.60 76.60 44.86 44.86 ±4.30 ±4.30 31.85\mathbf{31.85}±.53\pm.53 84.60 84.60 ±.92\pm.92 63.98\mathbf{63.98}±.54\pm.54 80.26 80.26 ±8.67\pm8.67 137.68 137.68 ±19.09\pm19.09 78.88 78.88 ±4.48\pm4.48 69.13\mathbf{69.13}±9.09\pm9.09
Chronos-2 Fine-Tuned 61.95 61.95 70.81 70.81 61.08 61.08 ±10.37\pm10.37 61.65 61.65 ±6.43\pm6.43 74.90 74.90 ±2.79\pm2.79 76.65 76.65 ±6.06\pm6.06 48.67 48.67 ±2.35\pm2.35 59.21 59.21 ±12.63\pm12.63 64.35\mathbf{64.35}±8.92\pm8.92 100.65 100.65 ±6.20\pm6.20
MLP + Chronos-2 48.52\mathbf{48.52} 57.21\mathbf{57.21} 43.57\mathbf{43.57}±2.01\pm2.01 32.20 32.20 ±4.00\pm4.00 54.93\mathbf{54.93}±3.48\pm3.48 73.11 73.11 ±10.57\pm10.57 35.83\mathbf{35.83}±6.38\pm6.38 48.06\mathbf{48.06}±12.67\pm12.67 70.95 70.95 ±5.03\pm5.03 93.72 93.72 ±5.72\pm5.72
表 II: 每个留出传感单元(B1–B4)的浓度预测性能。报告格式遵循表 I (https://arxiv.org/html/2606.27672#S1.T1)。
## III 实验
### III-A 气体传感数据集
我们使用 Twin Gas Sensor Arrays 数据集 [Fonollosa et al., 2016 (https://arxiv.org/html/2606.27672#bib.bib4)],该数据集被广泛用于评估跨设备泛化设置下的机器学习模型 [Yang et al., 2026 (https://arxiv.org/html/2606.27672#bib.bib1)]。该数据集包含从五个独立的 E-Nose 单元(B1–B5)收集的 640 条记录,每个单元配备一个由八个 MOX 传感器(m=8)组成的阵列,包括 TGS2611、TGS2612、TGS2610 和 TGS2602 传感器。每个单元被暴露于四种气体(n=4)的十个浓度水平:乙醇和乙烯的 12.5–125.0 ppm,以及甲烷和一氧化碳的 25.0–250.0 ppm。每次会话中,八个 MOX 传感器的响应以 100 Hz 的频率记录了 600 秒。
遵循 Yang et al. [2026 (https://arxiv.org/html/2606.27672#bib.bib1)] 的协议,我们仅使用每次记录的前 300 秒,因为后半部分对应传感腔的吹扫阶段。选定的窗口随后被下采样至 300 个时间点作为模型输入(τ=300)。尽管五个传感单元设计为相同,但硬件差异和数据采集日期的不同导致了采集信号中的设备相关漂移。虽然本研究不侧重于漂移适应,但这些差异为评估所学嵌入表示跨不同传感器条件的泛化能力提供了有用的测试平台。
### III-B 实现细节与基线模型
我们评估不同的模型作为编码器 φ,同时使用相同的预测头用于分类器 F 和回归器 G。分类器包含一个全连接层(512 个节点),后接 ReLU 激活,以及一个四节点输出层用于气体类型分类。回归器也包含一个全连接层,后接一个带 sigmoid 激活的一维输出层。由于不同气体的浓度范围不同,我们对每种气体的浓度值应用最小-最大归一化,使归一化目标位于 0 到 1 之间。预测的浓度值随后被重新缩放回原始的 ppm 范围进行评估。
为了评估提取的表示跨传感单元的泛化能力,我们构建了四个跨设备测试设置,每次留出一个传感单元(B1–B4)作为测试集。其余单元的数据按 9:1 的比例划分为训练集和验证集。遵循 Yang et al. [2026 (https://arxiv.org/html/2606.27672#bib.bib1)],由于报告的数据损坏,B5 的所有甲烷记录被丢弃,因此 B5 不作为留出测试单元使用。此外,所有报告的结果均为每个留出测试单元的三个随机训练-验证划分的平均值。
为了进行比较评估,Chronos-2 [Ansari et al., 2025 (https://arxiv.org/html/2606.27672#bib.bib2)] 和 MOMENT [Goswami et al., 2024 (https://arxiv.org/html/2606.27672#bib.bib3)] 与以下基线编码器进行比较:
- • MLP:一个多层感知器,包含两个全连接层,分别有 1,024 和 512 个隐藏节点,使用 ReLU 激活。每个样本被展平为输入向量。
- • DBFE [Yang et al., 2026 (https://arxiv.org/html/2606.27672#bib.bib1)]:最先进的基于卷积的模型,专门设计用于捕获“气体”传感器数据中的时间动态和跨传感器相关性。由于没有官方实现,我们根据手稿实现了该模型。为了仅关注所学嵌入的表示能力,排除了 Yang et al. [2026 (https://arxiv.org/html/2606.27672#bib.bib1)] 中引入的元学习特定损失。
- • MLP + Chronos-2:拼接 MLP 和微调下的 Chronos-2 的表示。
MLP 和 DBFE 被选为代表直接在 E-Nose 数据上训练的领域特定编码器。对于基于 TSFM 的编码器,我们使用 Chronos-2 Small [Ansari et al., 2025 (https://arxiv.org/html/2606.27672#bib.bib2)] 和 MOMENT Small [Goswami et al., 2024 (https://arxiv.org/html/2606.27672#bib.bib3)] 来获得 512 维的嵌入(d=512)。每个 TSFM 分别在冻结和微调设置下进行测试。所有模型训练最多 11K 个 epoch,学习率为 10^{-4},最小化交叉熵损失和均方误差(MSE)。如果验证 MSE 未...相似文章
基于时间序列基础模型嵌入的剩余使用寿命估计
本文介绍了一种轻量级方法,利用Chronos-2时间序列基础模型的冻结嵌入,结合一个简单的回归头,进行剩余使用寿命估计,在工业传感器数据上相比基线方法取得了更优的性能。
用于时间序列预测的仅解码器基础模型
本文介绍了一篇关于时间序列基础模型(TimeFM)的研究论文,这是一种仅解码器模型,通过借鉴大型语言模型技术,在多样化的时间序列数据集上实现了近乎最佳的零样本性能。
GlucoFM-Bench: 血糖预测的时间序列基础模型基准测试
GlucoFM-Bench 评估了用于血糖预测的时间序列基础模型,在15个数据集上展示了Chronos-2和TimesFM在零样本/少样本迁移方面的强劲表现,但指出当完整训练数据可用时,轻量级LSTM的性能更优。
评估基础模型在时间序列预测中的运行可行性
本文对基础模型在时间序列预测中的应用进行了评估,与四种操作领域中的监督学习方法进行了比较,并提出了一种复杂性路由器,用于选择性地将序列分配给最优模型类别,以平衡准确性和推理成本。
TS-Fault:针对结构性故障的时间序列预测器基准测试
本文介绍了TS-Fault,这是一个用于评估时间序列预测模型在结构化故障场景(如依赖关系断裂和机制变化)下的基准测试。研究发现,干净数据上的准确性通常与鲁棒性呈负相关,且基础模型特别脆弱。