LongDS-Bench:论长时域智能体数据分析的失败
摘要
介绍LongDS,一个用于评估LLM智能体在长时域、多轮数据分析任务上的基准。评估表明,即使最佳模型也仅达到48.45%的准确率,性能随轮次急剧下降,凸显出维护分析状态是关键瓶颈。
arXiv:2605.30434v1 公告类型:new
摘要:真实世界的数据分析本质上是迭代的,然而现有基准主要评估孤立或短交互任务,未测试智能体跟踪长时域进化分析上下文的能力。我们提出了LongDS,一个面向长时域、多轮数据分析的基准,要求智能体维护、更新、恢复和组合不断进化的分析状态。LongDS包含68个从真实世界Kaggle笔记本中构建的任务,涵盖地理科学、商业和教育等六个领域,共计2,225轮次。任务围绕状态演化模式(如反事实扰动、回滚、多状态组合)设计,平均依赖跨度为11.3轮。评估五个最先进模型后,我们发现最佳模型平均准确率仅为48.45%,性能从早期到后期轮次下降近47个百分点,长时域错误占总失败的52%–69%。进一步分析表明,增加智能体步骤不一定提高性能,说明关键瓶颈在于维护正确的分析状态,而非增加交互预算。我们发布LongDS以支持可靠的长时域自主数据分析研究。代码和数据将在https://github.com/zjunlp/DataMind发布。
查看缓存全文
缓存时间: 2026/06/01 09:24
# LongDS-Bench:长时域智能数据分析的失败原因 来源:https://arxiv.org/html/2605.30434 徐可为¹³,陆晓奔¹,乔帅飞¹,丁子涵¹,徐浩铭¹,梁磊²³,张宁宇¹³ ¹浙江大学,²蚂蚁集团,³浙江大学-蚂蚁集团知识图谱联合实验室 \{kewe1x,zhangningyu\}@zju.edu.cn ###### 摘要 现实世界的数据分析本质上是迭代的,然而现有基准测试主要评估孤立或短交互任务,使得智能体在长时域内跟踪不断演变的分析上下文的能力未经测试。我们引入 LongDS,一个用于长时域、多轮数据分析的基准测试,其中智能体必须维护、更新、恢复和组合不断演变的分析状态。LongDS 包含从真实 Kaggle 笔记本构建的 68 个任务,涵盖 2,225 轮对话,跨越地球科学、商业和教育等六个领域。任务围绕状态演化模式(例如,反事实扰动、回滚、多状态组合)设计,平均依赖跨度为 11.3 轮。评估五个最先进的模型后,我们发现最佳模型仅达到 48.45% 的平均准确率,从早期到后期的表现下降近 47 个百分点,长时域错误占失败原因的 52%–69%。进一步分析表明,增加智能体步骤并不一定能提高性能,这表明关键瓶颈在于维护正确的分析状态,而非增加交互预算。我们发布 LongDS 以支持可靠的长时域智能数据分析研究¹。 LongDS-Bench:长时域智能数据分析的失败原因 徐可为¹³,陆晓奔¹,乔帅飞¹,丁子涵¹,徐浩铭¹,梁磊²³,张宁宇¹³††thanks:通讯作者。¹浙江大学,²蚂蚁集团,³浙江大学-蚂蚁集团知识图谱联合实验室 \{kewe1x,zhangningyu\}@zju.edu.cn ## 1 引言 参照标题 图1:LongDS 中的多轮、长时域分析状态管理。智能体跟踪不断变化的过滤器、定义和中间结果,以便根据前几轮对话选择正确的状态来响应请求。
大语言模型(LLM)智能体越来越多地用于数据分析,它们编写代码并执行工具来分析数据并获取见解(Guo 等人,2024;Hong 等人,2024;Zhang 等人,2025b)。然而,现实世界的数据分析很少是一系列独立、自包含的请求。分析工作流通常会在持久的会话中展开,范围、指标、假设和中间结果会在各轮之间累积和变化。处理此类工作流需要维护一个不断演变的分析状态,以便在上下文中解释和执行每个请求。然而,现有的数据分析基准测试对智能体如何在长时域内管理分析状态的评估有限。许多基准测试专注于可重置环境中的独立任务(Lai 等人,2023;Hu 等人,2024;Jing 等人,2025;Egg 等人,2025)。最近的交互式基准测试扩展到多轮数据分析,但它们通常强调引导式分析完成,当前轮次很大程度上指定了所需操作(Dutta 等人,2025;Luo 等人,2026;Li 等人,2025)。因此,它们未能解决智能体是否能够管理跨长依赖链的演变分析状态,包括更新状态、应用局部扰动、回滚到较早状态以及组合多个状态。
参照标题 图2:一个 LongDS 任务示例,展示了五种代表性的状态演化模式,在一个 Netflix 市场机会分析中跨越 36 轮。第1轮从原始文件构建可重用的分析表,建立初始分析状态。第2轮在这些表的基础上更新状态,加入早期市场候选者。第3轮继承第2轮的候选者和组件权重,无需重新计算分析即可诊断分数贡献者。第18轮继承第16-17轮的长片分数,并对时长截止标准施加临时反事实扰动,同时保留默认状态。第24轮使用第23轮的当前顶级市场,但回滚到第12轮的预罚分分数,以隔离导演集中度罚分的影响。
为了弥补这一空白,我们引入了 LongDS,一个用于评估长时域智能数据分析在演化分析状态上的基准测试。基于真实的 Kaggle 笔记本和数据集构建,LongDS 将现实工作流转换为围绕状态演化模式组织的多轮任务(表1),具有长程轮次依赖关系。图1说明了基准测试设置,每个任务作为持久的多轮会话展开,后续请求依赖于先前轮次建立或更新的分析状态。LongDS 包含 68 个任务和 2,225 轮对话,涵盖六个不同的应用领域,包括地球科学、商业和教育,提供了一个具有挑战性的长时域分析状态管理测试平台,平均依赖跨度为 11.3 轮。
我们的实验表明,长时域分析状态管理对当前智能体构成了重大挑战。在五个最先进的模型中,即使是表现最好的模型在 LongDS 上的平均准确率也低于 50%,随着交互的进行,性能急剧下降。错误分析显示,大多数失败本质上都是长时域的,主要是级联错误和状态管理错误,而不是孤立的编码或推理错误。此外,增加智能体步骤数并不能持续提高准确率,这表明主要限制在于分析状态的维护,而不是交互预算。
| 模式 | 定义 | 示例 |
|------|------|------|
| 初始 | 建立一个可重用的分析对象,如分组、指标、规则或中间结果。 | 将**高活跃用户**定义为至少有 10 次会话的用户。 |
| 继承 | 重用**最近有效的分析状态**,无需重新说明。 | 使用**相同的用户组**,比较不同地区的留存率。 |
| 更新 | 修改先前的定义、公式、过滤器、聚合规则或基线,使修订成为**新的默认状态**。 | 在**以下分析中**,使用 20 个会话作为高活跃用户的**新截止标准**。 |
| 反事实 | 仅针对**当前轮次**引入一个**临时替代假设**。 | 假设一个 **5 次会话** 的截止标准,重新计算结果。 |
| 回滚 | 根据**较早锚定的分析版本**而非最近的状态来回答。 | 重新审视**初始高活跃度定义**并重新计算结果。 |
| 组合 | 组合**两种或多种显式状态操作**,超越默认继承。 | 使用**初始用户组**,但用**修订后的留存指标**进行评估。 |
表1:LongDS 中的状态演化模式。短标签分别表示初始状态构建、状态继承、状态更新、反事实扰动、回滚和多状态组合。**蓝色**高亮标记了每个定义和示例中的关键状态语义。示例为说明性。
总之,我们的贡献有三个方面:
- • 我们将长时域智能数据分析形式化为分析状态管理,涵盖初始构建、继承、更新、反事实扰动、回滚和多状态组合。
- • 我们引入了 LongDS,一个从现实工作流构建的真实基准测试,包含 68 个任务和 2,225 轮对话,具有长程状态依赖关系。
- • 我们提供了对强大专有和开源模型的系统评估,揭示了在长轨迹上性能显著下降,且失败主要由级联错误和状态管理错误主导。
参照标题 图3:LongDS 的任务策划流程:(a) 来源收集和过滤,(b) 初始状态注释任务构建,以及 (c) 通过专家审查、基于 Codex 的验证和一致性检查进行优化。
## 2 预备知识
一个多轮数据分析任务由一系列针对一组数据文件的用户请求组成,在持久的可执行环境(如 Jupyter 笔记本)中执行。形式上,一个任务定义为: T=(D,E0,U) 其中 D、E0 和 U=(u1,...,uT) 分别表示数据文件、初始可执行环境和用户请求序列。在第 t 轮,智能体接收当前请求 ut、交互历史 H相似文章
@dair_ai:关于长时程智能体的杰出论文(建议收藏)——类似人类,如何让智能体在困难任务中坚持下去?
AutoLab 是一个新基准测试,针对 36 个由专家精心设计的长时程任务(系统优化、模型开发、CUDA 内核、谜题),对 17 个前沿模型进行评估。研究发现,决定成功的关键因素是持久性——而非初始尝试的质量。Claude-opus-4.6 在所有类别中名列前茅,而大多数其他模型要么过早终止,要么在几乎没有进展的情况下耗尽了预算。
WildClawBench:真实世界长周期智能体评估基准
WildClawBench 使用真实的命令行界面环境和实际工具,评估语言和视觉-语言模型在现实长周期任务上的表现。该基准测试显示,即使最佳模型也仅达到62.2%的准确率,表明长周期智能体评估仍具有挑战性。
重访DAgger:大语言模型智能体时代的新探索
本文重新审视了数据集聚合(DAgger)方法在训练长周期大语言模型智能体中的应用,证明了在回合级别上对教师与学生的策略进行插值能够有效缓解协变量偏移,并在SWE-bench Verified等软件工程基准测试中优于现有方法。
长周期研究智能体的搜索纪律
本文识别了长周期研究智能体中的一种失败模式:优化聚合指标可能选出提升核心数字但破坏关键子群体(反转)的候选项。它提出了一种搜索纪律协议,该协议使用一个外部控制环路,基于候选项的分解行为而非得分进行审计。
Agent Judge:解决生产环境智能体的长上下文评估(10分钟阅读)
Agent Judge 是一种智能体评估工具,通过处理长轨迹、对照事实源系统验证状态化动作以及适应行为变化,克服了简单 LLM 评判器在长周期智能体评估中的局限性。