TS-Skill：评估时间序列问答中分析技能的基准测试

arXiv cs.CL 2026/05/26 04:00 论文

time-series benchmark question-answering llm evaluation nlp analytical-skills

摘要

TS-Skill 引入了一个受控的基准测试，包含三种可组合的分析技能用于时间序列问答。在 LLMs 和 TSLMs 上的实验揭示了显著的能力差距，特别是在跨区间整合方面。

arXiv:2605.24703v1 公告类型：新文章摘要：大语言模型（LLMs）和时间序列语言模型（TSLMs）日益应用于时间序列问答（TSQA）。与纯文本问答不同，TSQA 要求模型将答案基于时间信号，这些信号可能以不同尺度、特定时间位置或跨分离区间出现。然而，现有基准测试通常按任务类型或高级推理类别组织，难以诊断驱动模型性能的底层信号级能力。我们引入了 TS-Skill，这是一个受控的基准测试，用于评估 TSQA 中三种可组合的分析技能：时间尺度选择（SK1）、时间定位（SK2）和跨区间整合（SK3）。TS-Skill 提供带有时间戳的问题、广泛的领域覆盖以及人工验证的问答质量。为了大规模构建基准测试，我们开发了 SKEvol，这是一个技能引导的代理框架，结合了领域感知的时间序列种子生成、技能控制的问题生成、元数据和代码辅助的答案构建、多阶段信号验证以及人工循环优化。在十个最先进的 LLMs 和 TSLMs 上的实验揭示了 SK1-SK3 之间显著且不均衡的能力差距。特别是，SK3 对于非代理模型始终具有挑战性，而工具增强的代理在独立的 SK3 上显示出选择性优势。这些发现表明，技能级评估可以揭示被聚合的 TSQA 分数掩盖的时间推理故障。

查看原文

查看缓存全文

缓存时间: 2026/05/26 09:06

# TS-Skill: 一种评估时间序列问答中分析技能的基准

来源：https://arxiv.org/html/2605.24703

Liying Han¹，Kang Yang¹，¹¹⁰ Oliver Wang¹，¹¹⁰ Jason Wu¹，Pengrui Quan²，Gaofeng Dong¹，Ozan Baris Mulayim³，Sizhe Ma³，Yuyang Yuan¹，Dezhi Hong⁴，²²⁰ Mario Berges³,⁵，Mani Srivastava¹

¹加州大学洛杉矶分校（UCLA）
²三星研究院美国
³卡内基梅隆大学（CMU）
⁴微软
⁵亚马逊

{liying98, kyang73, owang22, jaysunwu, prquan, gfdong}@g.ucla.edu
[email protected], [email protected], [email protected], [email protected], [email protected], [email protected]

*同等贡献。研究内容与作者当前所属机构无关。*
*作者同时担任亚马逊学者和卡内基梅隆大学教授，但本文工作与亚马逊无关。*

###### 摘要

大型语言模型（LLMs）和时间序列语言模型（TSLMs）越来越多地应用于时间序列问答（TSQA）。与纯文本问答不同，TSQA 要求模型将答案依据建立在时间信号上，这些信号的模式可能出现在不同尺度、特定时间位置或跨多个分离区间。然而，现有的基准通常按任务类型或高层推理类别组织，这使得难以诊断驱动模型性能的底层信号级能力。我们引入了 TS-Skill，这是一个受控基准，用于评估 TSQA 中三种可组合的分析技能：时间尺度选择（SK1）、时间定位（SK2）和跨区间整合（SK3）。TS-Skill 提供带时间戳的问题、广泛的领域覆盖和人工验证的问答质量。为了大规模构建该基准，我们开发了 SKEvol，一个技能引导的智能体框架，结合了领域感知的时间序列种子生成、技能控制的问题生成、元数据和代码辅助的答案构建、多阶段信号验证以及人类参与策展。在十个最先进的 LLM 和 TSLM 上的实验揭示了 SK1–SK3 之间显著且不均衡的能力差距。特别是，SK3 对于非智能体模型始终具有挑战性，而工具增强的智能体在独立的 SK3 上显示出选择性优势。这些发现表明，技能级评估能够揭示被聚合的 TSQA 分数所掩盖的时间推理失败。

## 1 引言

时间序列问答（TSQA）考察模型能否回答基于时间信号的自然语言问题[Wang 等，2025b（https://arxiv.org/html/2605.24703#bib.bib59）；Xie 等，2024（https://arxiv.org/html/2605.24703#bib.bib25）；Oh 等，2023（https://arxiv.org/html/2605.24703#bib.bib21）；Reichman 等，2025（https://arxiv.org/html/2605.24703#bib.bib53）；Gwiazda 等，2026（https://arxiv.org/html/2605.24703#bib.bib55）；Chow 等，2024（https://arxiv.org/html/2605.24703#bib.bib51）]。这项能力在医疗、金融、能源、交通和工业监控等领域日益重要，用户需要针对大量时间数据通过自然语言进行查询。其他问答设定通常将答案建立在相对成熟的语义单元上，例如纯文本问答中的实体和关系[Rajpurkar 等，2016（https://arxiv.org/html/2605.24703#bib.bib1）；Kwiatkowski 等，2019（https://arxiv.org/html/2605.24703#bib.bib18）]，以及图像和视频问答中的对象或动作[Jang 等，2017（https://arxiv.org/html/2605.24703#bib.bib2）；Grunde-McLaughlin 等，2021（https://arxiv.org/html/2605.24703#bib.bib3）；Zhong 等，2022（https://arxiv.org/html/2605.24703#bib.bib17）]。相比之下，TSQA 涵盖高度异质的数据源，包括传感器、金融指标和系统指标，其中异常或系统事件等语义概念在不同领域和模态之间可能差异很大[Zamanzadeh Darban 等，2024（https://arxiv.org/html/2605.24703#bib.bib34）；Schmidl 等，2022（https://arxiv.org/html/2605.24703#bib.bib37）；Yu 等，2025（https://arxiv.org/html/2605.24703#bib.bib35）]。此外，许多 TSQA 问题直接询问确切值或聚合值。在这两种情况下，答案都必须从精确的时间序列值和时间结构中推断出来。这些需求促使我们通过回答问题所需的基本时间操作来评估 TSQA。我们将这些操作形式化为三种可组合分析技能的分类。

➊ **多尺度结构**。时间序列在不同时间分辨率上展现模式，从短时尖峰到周期模式再到长期趋势[RB，1990（https://arxiv.org/html/2605.24703#bib.bib32）；Zamanzadeh Darban 等，2024（https://arxiv.org/html/2605.24703#bib.bib34）；Liu 等，2024（https://arxiv.org/html/2605.24703#bib.bib36）]。这促成了 SK1，*时间尺度选择*，它决定了分析相关模式应使用的粒度。

➋ **时间定位证据**。许多问题需要在进一步分析之前关注特定的时间戳、区间或事件[Aminikhanghahi 和 Cook，2017（https://arxiv.org/html/2605.24703#bib.bib33）；Truong 等，2020（https://arxiv.org/html/2605.24703#bib.bib41）]。这促成了 SK2，*时间定位*，它识别答案所在的位置。

➌ **跨区间证据**。比较、计数、聚合和变化分析通常需要结合来自非连续时间区域的信息。这促成了 SK3，*跨区间整合*，它在分离的区间之间聚合、比较或计数证据。

表 1：现有 TSQA 基准技能覆盖。每个数据集检查 100 个示例。

现有的 TSQA 基准并未将这些分析技能作为明确的评估目标。这些基准通常按任务类型（例如，预测或异常检测）[Kong 等，2025（https://arxiv.org/html/2605.24703#bib.bib54）；Gwiazda 等，2026（https://arxiv.org/html/2605.24703#bib.bib55）；Reichman 等，2025（https://arxiv.org/html/2605.24703#bib.bib53）；Wang 等，2025b（https://arxiv.org/html/2605.24703#bib.bib59）；Schmidl 等，2022（https://arxiv.org/html/2605.24703#bib.bib37）；Godahewa 等，2021（https://arxiv.org/html/2605.24703#bib.bib38）] 或按高层推理类别（例如，因果推理或归纳推理）[Wang 等，2025a（https://arxiv.org/html/2605.24703#bib.bib56）；Xie 等，2024（https://arxiv.org/html/2605.24703#bib.bib25）；Xu 等，2026（https://arxiv.org/html/2605.24703#bib.bib58）；He 等，2026（https://arxiv.org/html/2605.24703#bib.bib57）] 组织问题，使得技能分布隐含且不受控制。为了考察这一点，我们从三个代表基准中随机抽样并标注了 100 个示例，使用我们的分类法。表 1（https://arxiv.org/html/2605.24703#S1.T1）显示，这三种技能出现在各个基准中，但覆盖极不均匀：Time-MQA[Kong 等，2025（https://arxiv.org/html/2605.24703#bib.bib54）] 主要是 SK1，但 SensorQA[Reichman 等，2025（https://arxiv.org/html/2605.24703#bib.bib53）] 强调 SK3 且没有 SK1 示例，而 ECG-QA[Oh 等，2023（https://arxiv.org/html/2605.24703#bib.bib21）] 相对更加平衡。因此，聚合分数可能反映的是数据集侧重点，而非模型在时间操作上的能力，这使得难以诊断失败、公平比较系统或构建有针对性的评估子集[Liang 等，2023（https://arxiv.org/html/2605.24703#bib.bib23）]。

许多基准还用无单位索引替换时间戳，限制了对日历感知推理、粗略时间引用以及依赖于采样频率和时间对齐的操作的评估。带时间戳的构建使得能够评估超出相对索引推理的范围。模型解读日历引用、粗略时间表达（例如，“早晨”、“上周”）以及依赖于采样频率和时间对齐的推理行为。

我们通过引入 **TS-Skill** 来填补这一空白，这是一个用于 TSQA 中技能级评估的受控基准。**TS-Skill** 为每个问题标注所需的分析技能，涵盖单技能和多技能组合，提供带时间戳的问题，并覆盖金融、医疗、能源、交通与运输、环境监测和网络系统。通过明确技能组成，**TS-Skill** 支持细粒度诊断、跨基准的公平比较以及针对特定时间操作的有针对性评估子集。除了评估，**TS-Skill** 还可以支持针对能力的微调、课程构建以及工具增强的时间推理系统的开发。

为了大规模构建 **TS-Skill**，我们开发了 **SKEvol**，一个用于可控 TSQA 生成的技能引导智能体框架。手动策展很困难，因为每个问题需要满足目标技能组成，同时保持可从底层时间序列回答。**SKEvol** 通过从领域上下文中生成带时间戳的时间序列种子、生成具有受控技能组合（从单技能到多技能组合）的问题，以及从元数据或对原始信号的代码执行中推导答案来解决这个问题。然后，它应用多阶段验证，包括元数据检查、基于图表的验证、代码辅助的一致性检查以及人类参与策展，以确保每个问答对都建立在底层序列之上。

在多种评分协议下评估十个最先进的 LLM 和 TSLM，揭示了三种技能之间显著且不均衡的差距。视觉语言模型在时间定位（SK2）上相对更强，而工具增强的智能体在独立的跨区间整合（SK3）上具有选择性优势。对于大多数非智能体模型，尤其是时间序列原生模型和微调的 TSQA 模型，SK3 仍然是最大的差距。这表明现有的时间序列适应性并不能可靠地转移。具有相似聚合分数的模型可能表现出不同的技能分布，这表明 **TS-Skill** 能够诊断被聚合 TSQA 性能所隐藏的时间推理差距。

总之，本工作做出了四项贡献：

- • **基于技能的分类法**。三种可组合的 TSQA 技能：时间尺度选择、时间定位和跨区间整合。
- • **TS-Skill 基准**。一个受控的 TSQA 基准，包含技能标注、带时间戳的问题、广泛的领域覆盖和人工验证的质量。
- • **SKEvol 框架**。一个技能引导的智能体框架，通过时间序列合成、问题生成、多阶段验证和人类参与策展来构建 **TS-Skill**。
- • **技能级评估**。对十个最先进的 LLM 和 TSLM 的评估，揭示了被聚合 TSQA 分数所掩盖的不同技能分布和推理差距。

基准数据集¹¹https://huggingface.co/datasets/Anonymous-Dataset-H/TS-Skill 公开可用，以促进可重复性并支持未来关于技能感知 TSQA 模型的研究。

## 2 相关工作

表 2：TSQA 基准比较。**TS-Skill** 独特地结合了明确的技能控制、带时间戳的构建和多阶段信号验证。

**TSQA 基准**。现有的 TSQA 基准在表 2（https://arxiv.org/html/2605.24703#S2.T2）总结的维度上有所不同。ChatTS[Xie 等，2024（https://arxiv.org/html/2605.24703#bib.bib25）] 和 TimeSeriesExamAgent[Gwiazda 等，2026（https://arxiv.org/html/2605.24703#bib.bib55）] 通过合成生成和智能体流水线扩展 TSQA 数据，但按推理类别而非信号级技能组合组织问题。MMTS-Bench[Yin 等，2026（https://arxiv.org/html/2605.24703#bib.bib28）] 在合成和真实世界子集上引入了层次化任务分类，但在任务级别运作，而非捕捉信号级操作。其余基准依赖领域模拟器[Wang 等，2025b（https://arxiv.org/html/2605.24703#bib.bib59）]、真实世界信号[Oh 等，2023（https://arxiv.org/html/2605.24703#bib.bib21）；Reichman 等，2025（https://arxiv.org/html/2605.24703#bib.bib53）；Divo 等，2025（https://arxiv.org/html/2605.24703#bib.bib30）] 或策展数据集[Kong 等，2025（https://arxiv.org/html/2605.24703#bib.bib54）]，这些都不提供对分析技能组成的显式控制。**TS-Skill** 通过明确的技能标注、可控的多技能组合、带时间戳的问题以及基于底层信号的多阶段验证来补充这些工作。

**TSQA 中的推理组织**。先前的 TSQA 基准要么按任务组织（在应用级别 [Kong 等，2025（https://arxiv.org/html/2605.24703#bib.bib54）；Reichman 等，2025（https://arxiv.org/html/2605.24703#bib.bib53）；Wang 等，2025b（https://arxiv.org/html/2605.24703#bib.bib59）；Divo 等，2025（https://arxiv.org/html/2605.24703#bib.bib30）] 或通过层次任务分类 [Yin 等，2026（https://arxiv.org/html/2605.24703#bib.bib28）]），要么按推理风格组织（通用推理类别 [Wang 等，2025a（https://arxiv.org/html/2605.24703#bib.bib56）；Xie 等，2024（https://arxiv.org/html/2605.24703#bib.bib25）；Gwiazda 等，2026（https://arxiv.org/html/2605.24703#bib.bib55）；He 等，2026（https://arxiv.org/html/2605.24703#bib.bib57）；Fons 等，2024（https://arxiv.org/html/2605.24703#bib.bib9）] 和领域特定的临床推理 [Xu 等，2026（https://arxiv.org/html/2605.24703#bib.bib58）；Oh 等，2023（https://arxiv.org/html/2605.24703#bib.bib21）]）。然而，这些组织在任务或推理级别运作，并未隔离从时间数据中提取证据所需的信号级操作。我们的分类法转而定义了三种基于时间序列结构的可组合分析技能。

**自动化 TSQA 生成**。近期工作通过 LLM 和智能体流水线来扩展 TSQA 数据构建。TS-Evol[Xie 等，2024（https://arxiv.org/html/2605.24703#bib.bib25）] 从自然语言信号描述中演变问题，但不针对原始信号进行验证。TimeSeriesExamAgent[Gwiazda 等，2026（https://arxiv.org/html/2605.24703#bib.bib55）] 增加了带质量评估的智能体生成，但不强制技能组合。**SKEvol** 强制目标技能组合，并将答案构建建立在元数据或对底层信号的代码执行上。它通过元数据检查、基于图表的验证和代码辅助一致性来应用多阶段验证。

## 3 时间序列分析技能的分类

TSQA 问题在领域、术语和任务类型上差异很大，但许多问题需要对时间信号进行重复操作。通过对现有 TSQA 基准的系统性审查（总结于附录 A（https://arxiv.org/html/2605.24703#A1）），我们识别出三种可组合的分析技能，它们描述了模型必须如何操作时间序列本身。该分类法提出三个问题：使用哪种分辨率、在哪里查找以及如何组合证据。一个 TSQA 问题可能需要一项技能或多个技能的组合。图 1（https://arxiv.org/html/2605.24703#S3.F1）说明了这三种操作。

参见标题说明
图 1：三种分析技能。SK1 选择模式可见的时间分辨率。SK2 定位相关区间。SK3 在分离的时间区域之间整合证据。

- • **时间尺度选择 (SK1)**。这项技能确定相关模式最易于观察的时间粒度。细粒度视图可以揭示短时事件，而粗粒度视图可以抑制局部噪声并揭示长期趋势或季节性。例如，“是否存在一个短暂的

TS-Skill：评估时间序列问答中分析技能的基准测试

相似文章

迈向可验证的自主数据科学：通过工具化推理解决不规则时间序列问答

SkillRet：面向 LLM 智能体技能检索的大规模基准

SkillLearnBench：面向真实任务代理技能生成的持续学习方法基准

超越分词：面向时间序列问答的直接时间步嵌入与对比对齐

SkillMaster：迈向大语言模型智能体的自主技能掌握

提交意见反馈