迈向可验证的自主数据科学：通过工具化推理解决不规则时间序列问答

arXiv cs.AI 2026/06/16 04:00 论文

time-series question-answering benchmark llm agents irregular-data tool-grounding

摘要

介绍了IRTS-ToolBench，这是一个包含1,700个问题的基准测试，用于通过工具化推理评估大语言模型（LLM）和AI代理在不规则时间序列问答上的表现，涵盖13个领域的10种任务类型。

arXiv:2606.15107v1 公告类型：新摘要：现实部署中的时间序列数据绝大多数是不规则的。观测是异步的，缺失值具有信息性而非随机性，采样频率在不同传感器和操作窗口之间变化。然而，现有的时间序列问答（TSQA）基准测试大多假设输入是规则采样的，导致在大语言模型（LLM）和AI代理在不规则条件下的表现理解上存在根本性差距。为弥补这一差距，我们引入了IRTS-ToolBench，这是一个包含1,700个问题的基准测试，涵盖13个领域的10种任务类型。IRTS-ToolBench旨在供任何研究基于LLM的不规则时间序列分析的研究人员独立使用，提供标准化输入和可重复的评估协议。代码可在 https://github.com/SanhornC/IRTS-ToolBench 获取。

查看原文

查看缓存全文

缓存时间: 2026/06/16 11:44

# 通过工具驱动推理解决非规整时序问答

## 迈向可验证的智能体数据科学：通过工具驱动推理解决非规整时序问答

陈三鸿，陈晓阳，刘博宇，赵睿 伊利诺伊大学厄巴纳-香槟分校 \{sanhorn2, xc52\}@illinois\.edu

###### 摘要

现实世界中的时间序列数据绝大多数是非规整的。观测值不同步，缺失值具有信息性而非随机性，采样频率在不同传感器和操作窗口间变化。然而，现有的时序问答（TSQA）基准大多假设规则采样的输入，这在理解大语言模型（LLM）和AI智能体在非规整条件下的表现方面留下了根本性空白。为填补这一空白，我们引入了 *IRTS-ToolBench*，一个包含1700个问题的基准，涵盖13个领域的10种任务类型。*IRTS-ToolBench* 专为任何从事基于LLM的非规整时序分析的研究者独立使用而设计，提供标准化输入和可复现的评估协议。代码可在 https://github.com/SanhornC/IRTS-ToolBench 获取。

## 1 引言

时间序列数据是现实世界系统中最为常见的信息形式之一（Chang et al., 2025）。大语言模型（LLM）和AI智能体在复杂推理任务上的快速发展，使得时序问答（TSQA）成为一种日益重要的评估范式。最近的基准（Jing et al., 2026; Kong et al., 2025; Wu et al., 2026a; Yu et al., 2026; Yin et al., 2026）已经证明，LLM能够在结构化时间序列输入上进行时间推理，并以上下文信息作为补充。同时，智能体框架（Wu et al., 2026b; Liu et al., 2026; Zhao et al., 2025）表明，工具增强和多智能体方法在复杂时序任务上优于直接的LLM推理。然而，这些工作共有一个关键局限：它们仅在规整时间序列上运行，而时间序列数据以规则间隔到达这一假设在实践中系统性地被违反。例如，ICU监测系统在护士或医生认为临床必要时记录生命体征，而工业传感器仅在检测到异常时记录读数。因此，缺乏一个严格的非规整时间序列基准构成了我们评估基础设施中的根本性空白。

现有的合成非规整化方法，如MCAR随机丢弃和稀疏掩码重采样，在未理解领域语义或缺失原因的情况下应用变换，导致数据在统计上非规整但在语义上不合理。TIME-IMM（Chang et al., 2025）指出了这一空白，证明现实世界中的非规整性按三类（触发型、约束型和伪影型）组织为九种由原因驱动类型，而随机丢弃无法捕捉其中任何一种。据我们所知，先前没有工作提出基于语义的规整到非规整时间序列转换流程。

我们介绍 *IRTS-ToolBench*，这是一个专门设计用于通过工具驱动推理评估LLM和AI智能体在非规整单变量TSQA上表现的基准。我们的贡献有三方面。(1) 我们提出了一种新颖的LLM引导的非规整转换流程，用于基于语义的规整到非规整时间序列转换。(2) *IRTS-ToolBench* 包含1700个问题，涵盖13个领域的10种任务类型。(3) 我们收集了一个包含30个工具的库，其中有7个非规整性操作符和23个分析工具，使得基准能够支持LLM和AI智能体的评估。

本文其余部分组织如下。第2节将IRTS-ToolBench置于相关工作之中。第3节详细描述了基准设计，包括转换流程、任务描述和工具库。第4节定义评估协议。第5节讨论基准验证。第6节以局限性和未来方向作为总结。

## 2 相关工作

**TSQA基准。** TSAQA（Jing et al., 2026）提供了一个六种任务类型的分层分类法，包括异常检测、分类、特征描述、比较、数据转换和时间关系，涵盖60个数据集。其多LLM共识问题生成机制直接启发了我们自己的流水线。Time-MQA（Kong et al., 2025）将TSQA扩展到具有上下文增强的多任务设置。ITFormer（Wang et al., 2025）引入了一个航空发动机QA数据集，将时间序列与自然语言配对用于跨模态对齐任务。尽管有这些贡献，这三个基准都假设输入是干净、规则采样的时间序列。

**非规整时间序列：分类法和转换方法。** TIME-IMM（Chang et al., 2025）引入了一个九种非规整性分类法，分为触发型、约束型和伪影型，每种都锚定在一个真实世界数据集上，并批评了现有基准假设规则采样的做法。我们的转换流程将这一分类法作为其决策空间。(Du et al., 2025) 提供了MCAR、MAR、MNAR、块缺失和序列缺失函数的实现，形成了我们流程的执行层。Physiome-ODE（klötergens2025physiomeodebenchmarkirregularlysampled）提供了一个基于生物ODE的非规整多变量预测基准。至关重要的是，这些工作都没有使用LLM来引导非规整化过程。

**智能体时间序列框架。** TimeART（Wu et al., 2026b）提出了一种ReAct风格的智能体，配有时间序列推理的策划工具，建立了工具增强智能体评估的模板，我们的基准将其扩展到非规整领域。TS-Agent（Liu et al., 2026）专注于时间序列任务的统计洞察收集。TimeSeriesScientist（Zhao et al., 2025）提出了针对预测工作流优化的不同角色的智能体。

## 3 基准设计

### 3.1 任务领域、范围与描述

IRTS-ToolBench 从两个源数据集（Jing et al., 2026; Kong et al., 2025）中提取，涵盖13个领域（如金融、医疗）。所有收集到的规整时间序列样本通过一个三层流程（第3.2节）重构为单变量非规整时间序列，格式为多项选择（MC）或对错（TF）。基准组织为 *10* 种任务类型，分为 *3* 个类别（任务描述细节见表1）：
(1) **标准推理**：此类问题要求模型对非规整时间序列输入执行简单的时间序列推理基元，并测试模型能否识别非规整与规整时间序列之间的差异。具体来说，我们引入 *4* 个任务：*异常检测*、*分类*、*规整与非规整判别* 和 *规整性恢复*。
(2) **非规整性特定推理**：在此类别中，我们评估模型能否通过识别非规整时间序列输入的时间特征、推断异步观测之间的关系以及归因于非规整采样模式的根本原因来进行推理。具体来说，我们引入 *3* 个任务：*特征描述*、*时间关系* 和 *非规整性原因归因*。
(3) **规整-非规整接口推理**：这些任务要求模型在规整与非规整表示之间的边界上进行推理，并测试模型能否在规整性与非规整性的接口上进行推理。具体来说，我们引入 *3* 个任务：*缺失推理*、*非规整严重程度估计* 和 *预测*。
这三个类别设计为一个逐步递进的推理层次结构，从基本的非规整采样开始，到对非规整时间结构的明确理解，最终到在规整与非规整表示之间的接口上推理。有关任务描述的更多细节，请参考附录A。此外，任务示例见附录E。

### 3.2 基准构建流程

我们的基准从两个源数据集（Jing et al., 2026; Kong et al., 2028）中提取。具体来说，每个收集的样本通过一个三层转换流程处理。我们在下面描述每个流程阶段。

**非规整时间序列转换。** 我们的转换流程，如图1所示，利用 (Chang et al., 2025) 中的非规整性类型作为决策空间，为每个样本选择合适的转换机制。具体来说，该流程遵循统一的三阶段设计。
(1) **上下文丰富**：我们利用LLM为每个时间序列序列生成一个丰富的上下文描述，捕捉其领域、统计特征和信号特征。
(2) **分类法选择**：在给定的丰富上下文和时间序列统计信息下，LLM选择最合适的非规整性类型，并输出一个带有相关异常注释和自评置信度分数的转换计划。
(3) **参数生成**：LLM将转换计划转化为相关转换函数的经过验证的数值参数。
然后，转换执行应用生成的参数，产生一个具有现实缺失模式以及可选的时间戳抖动的非规整时间序列。更多信息见附录B.1。

**问题生成流程。** 对于每种任务类型，一个专门的问题生成流程生成条件于转换后的非规整时间序列及其相关异常注释的问题。生成过程如图2所示，具体如下：
(1) **初始生成**：使用任务特定提示对GPT-5.1进行提示，生成每个样本的 *元信息*。根据任务设计，相应的 *问题*（MC或TF）和答案要么由GPT-5.1生成，要么使用任务特定的确定性函数构建。
(2) **多LLM共识**：然后，三个独立的LLM（GPT-5.1、Claude Sonnet 4.5、Gemini 2.5 Flash）评估生成的 *元信息*、*问题* 和 *答案* 是否清晰且可从提供的时间序列中回答（例如，分数 > 阈值）。更多细节见附录B.2。

**黄金工具集构建。** 对于每个最终确定的基准样本，黄金工具集指定模型必须调用以正确回答问题的最小工具集。构建协议如图3所示，具体如下：
(1) **独立提议**：三个LLM（GPT-5.1、Claude Sonnet 4.5、Gemini 2.5 Flash）独立地为该问题提出所需的工具序列，并附上自置信度分数和每个工具必要性的解释。
(2) **共识黄金集**：黄金集通过 *多数投票* 构建，并带有 *并集* 回退机制；即至少两个LLM提出的工具被保留，而如果没有工具获得多数支持，则使用所有提议工具的并集。更多细节见附录B.3。

#### 3.2.1 工具库

IRTS-ToolBench 提供了一个包含30个工具的工具库，如表3所示，使得基准能够支持LLM（通过工具增强提示）和AI智能体（通过智能体工具使用框架）的评估。该库组织为两层：
(1) **非规整性操作符**：这些工具提供处理非规整时间序列序列的操作。
(2) **高级分析工具**：这一层包含23个工具，提供时间序列分析基元，如汇总统计、趋势和季节性检测。更多细节见附录D。

## 4 评估协议

*IRTS-ToolBench* 设计为在标准化协议下进行评估。具体来说，模型输出被解析并与真实值进行比较，两者均采用MC或TF问题格式。我们定义三个主要指标，并指定如何计算、汇总和报告它们。

**指标。** 主要指标是 *总体准确率*：Accuracy = (1/N) * Σ s_i，其中 N 是评估样本总数。对于MC和TF问题，模型输出必须与真实答案完全匹配才能得分。我们还报告每种任务类型 t 的 *任务级别准确率*：Accuracy(t) = (1/|D_t|) * Σ_{i∈D_t} s_i，其中 D_t 是属于任务 t 的样本集。此外，当启用工具评估时，我们将模型调用的工具集与提议的黄金工具集进行比较。每个样本被分配一个标签：(1) *完全匹配*：调用的工具集与黄金工具集完全匹配；(2) *部分匹配*：调用的工具集部分匹配黄金工具集；(3) *完全不匹配*：调用的工具集与黄金工具集不匹配。对于每种任务类型，我们报告这三种比率。这些比率互斥，在每个任务内总和为1，并且它们不用于计算总体准确率和任务级别准确率。

**评分与汇总。** 所有问题均采用二元评分。每个样本如果模型答案与真实值匹配则得1分，否则得0分。*总体准确率* 是所有样本的平均分，而 *任务级别准确率* 是每种任务类型内的平均分。工具匹配率按任务类型分别汇总，并作为工具使用行为的指标。

**报告要求。** 对于每个模型，我们报告 *总体准确率*、跨10种任务类型的 *任务级别准确率*，以及（如果适用）任务级别的 *工具匹配率*。我们还指定模型是否在工具增强模式下进行评估。

## 5 基准验证

**任务质量验证。** 任务质量在 *问题生成* 和 *黄金工具集构建* 流程中通过多LLM评估器层进行控制。对于 *问题生成* 流程，每个生成的QA对由GPT-5.1、Claude Sonnet 4.5和Gemini 2.5 Flash使用相同评估提示进行审查。评估者根据问题清晰度、答案支持性等分配置信度分数。

迈向可验证的自主数据科学：通过工具化推理解决不规则时间序列问答

相似文章

TS-Skill：评估时间序列问答中分析技能的基准测试

A2RBench：一种自动化的可形式化验证抽象推理基准生成范式

TerraBench：智能体能否推理异构地球系统数据？

SciR：用于LLMs科学推理的可控基准

哪些变化重要？通过相关性敏感评估和求解器推理实现可信赖的法律AI

提交意见反馈