LongDS-Bench：关于长程自主数据分析的失败

Hugging Face Daily Papers 2026/05/28 00:00 论文

long-horizon multi-turn data-analysis benchmark agent state-evolution kaggle

摘要

LongDS是一个用于评估AI智能体在源自Kaggle笔记本的长程、多轮数据分析任务上的基准测试；实验表明，最佳模型仅能达到48%的准确率，且随着轮数增加准确率显著下降。

现实世界的数据分析本质上是迭代的，然而现有基准大多评估孤立或短期的交互任务，导致智能体在长程中追踪不断演化的分析上下文的能力未经测试。我们引入了LongDS，一个用于长程、多轮数据分析的基准，其中智能体必须维护、更新、恢复和组合不断演化的分析状态。LongDS包含68个任务，这些任务基于真实的Kaggle笔记本构建，涵盖六个领域的2,225轮交互，包括地球科学、商业和教育。任务围绕状态演化模式设计（例如，反事实扰动、回滚、多状态组合），平均依赖跨度达11.3轮。在评估五个最先进模型时，我们发现最佳模型平均准确率仅为48.45%，从早期到后期轮次性能下降近47个百分点，长程错误占失败的52%至69%。进一步分析表明，增加智能体的步骤并不一定能提高性能，这表明关键瓶颈在于维持正确的分析状态，而非增加交互预算。我们发布LongDS以支持可靠的长程自主数据分析研究。代码和数据将在https://github.com/zjunlp/DataMind发布。

查看原文

查看缓存全文

缓存时间: 2026/06/01 03:18

论文页面 - LongDS-Bench：长程智能数据分析的失败原因分析

来源：https://huggingface.co/papers/2605.30434

摘要

LongDS基准测试利用Kaggle笔记本中的真实任务，评估智能体在长时间数据分析会话中维护和更新分析状态的能力。

真实世界的数据分析本质上是迭代的，但现有基准测试大多评估孤立或短交互任务，未能测试智能体在长程范围内跟踪不断变化的分析上下文的能力。我们提出LongDS，一个用于长程、多轮数据分析的基准测试，要求智能体维护、更新、恢复和组合不断变化的分析状态。LongDS包含68个任务，这些任务基于真实的Kaggle笔记本构建，涵盖2,225个回合，跨越地球科学、商业、教育等六个领域。任务围绕状态演化模式（例如反事实扰动、回溯、多状态组合）设计，平均依赖跨度为11.3个回合。在评估五个最先进的模型后，我们发现最佳模型的平均准确率仅为48.45%，从早期回合到晚期回合性能下降近47个百分点，且长程错误占失败原因的52%至69%。进一步分析表明，增加智能体步骤并不一定能提高性能，这表明关键瓶颈在于保持正确的分析状态，而非增加交互预算。我们发布LongDS以支持可靠的长程智能数据分析研究。代码和数据将在 https://github.com/zjunlp/DataMind 发布。

查看arXiv页面 (https://arxiv.org/abs/2605.30434) 查看PDF (https://arxiv.org/pdf/2605.30434) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.30434)

在你的智能体中获取此论文：

hf papers read 2605.30434

没有最新的CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

在模型的README.md中引用 arxiv.org/abs/2605.30434 以从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集的README.md中引用 arxiv.org/abs/2605.30434 以从此页面链接。

引用此论文的Space0

没有Space链接此论文

在Space的README.md中引用 arxiv.org/abs/2605.30434 以从此页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 以从此页面链接。

LongDS-Bench：关于长程自主数据分析的失败

论文页面 - LongDS-Bench：长程智能数据分析的失败原因分析

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的Space0

包含此论文的收藏集0

相似文章

预测Metr的时间跨度数据

@llama_index：LiteParse v2.1 来了，它带来了迄今为止最快的 Markdown 输出。在此版本中，我们实现了我们的……

@trycua: 1/ 今天我们正在将 Cua Driver 带到 Linux：为任何智能体提供后台计算机操控。Hermes、Claude Code、Codex 或你的…

@PrajwalTomar_：这太疯狂了。MiniMax 刚刚发布了 M3，它可能是目前构建应用最强大的开源模型。我给了……

@neural_avb: 我最好的新习惯是让我的代理记录我在训练模型时使用的所有技巧和秘籍。我有日志……

提交意见反馈