LongDS-Bench:关于长程自主数据分析的失败

Hugging Face Daily Papers 论文

摘要

LongDS是一个用于评估AI智能体在源自Kaggle笔记本的长程、多轮数据分析任务上的基准测试;实验表明,最佳模型仅能达到48%的准确率,且随着轮数增加准确率显著下降。

现实世界的数据分析本质上是迭代的,然而现有基准大多评估孤立或短期的交互任务,导致智能体在长程中追踪不断演化的分析上下文的能力未经测试。我们引入了LongDS,一个用于长程、多轮数据分析的基准,其中智能体必须维护、更新、恢复和组合不断演化的分析状态。LongDS包含68个任务,这些任务基于真实的Kaggle笔记本构建,涵盖六个领域的2,225轮交互,包括地球科学、商业和教育。任务围绕状态演化模式设计(例如,反事实扰动、回滚、多状态组合),平均依赖跨度达11.3轮。在评估五个最先进模型时,我们发现最佳模型平均准确率仅为48.45%,从早期到后期轮次性能下降近47个百分点,长程错误占失败的52%至69%。进一步分析表明,增加智能体的步骤并不一定能提高性能,这表明关键瓶颈在于维持正确的分析状态,而非增加交互预算。我们发布LongDS以支持可靠的长程自主数据分析研究。代码和数据将在https://github.com/zjunlp/DataMind发布。
查看原文
查看缓存全文

缓存时间: 2026/06/01 03:18

论文页面 - LongDS-Bench:长程智能数据分析的失败原因分析

来源:https://huggingface.co/papers/2605.30434

摘要

LongDS基准测试利用Kaggle笔记本中的真实任务,评估智能体在长时间数据分析会话中维护和更新分析状态的能力。

真实世界的数据分析本质上是迭代的,但现有基准测试大多评估孤立或短交互任务,未能测试智能体在长程范围内跟踪不断变化的分析上下文的能力。我们提出LongDS,一个用于长程、多轮数据分析的基准测试,要求智能体维护、更新、恢复和组合不断变化的分析状态。LongDS包含68个任务,这些任务基于真实的Kaggle笔记本构建,涵盖2,225个回合,跨越地球科学、商业、教育等六个领域。任务围绕状态演化模式(例如反事实扰动、回溯、多状态组合)设计,平均依赖跨度为11.3个回合。在评估五个最先进的模型后,我们发现最佳模型的平均准确率仅为48.45%,从早期回合到晚期回合性能下降近47个百分点,且长程错误占失败原因的52%至69%。进一步分析表明,增加智能体步骤并不一定能提高性能,这表明关键瓶颈在于保持正确的分析状态,而非增加交互预算。我们发布LongDS以支持可靠的长程智能数据分析研究。代码和数据将在 https://github.com/zjunlp/DataMind 发布。

查看arXiv页面 (https://arxiv.org/abs/2605.30434) 查看PDF (https://arxiv.org/pdf/2605.30434) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.30434)

在你的智能体中获取此论文:

hf papers read 2605.30434

没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

在模型的README.md中引用 arxiv.org/abs/2605.30434 以从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集的README.md中引用 arxiv.org/abs/2605.30434 以从此页面链接。

引用此论文的Space0

没有Space链接此论文

在Space的README.md中引用 arxiv.org/abs/2605.30434 以从此页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 以从此页面链接。

相似文章

预测Metr的时间跨度数据

Reddit r/singularity

本文分析并预测了Metr的时间跨度数据,这些数据可能与AI开发时间线及预测相关。