LongDS-Bench:关于长程自主数据分析的失败
摘要
LongDS是一个用于评估AI智能体在源自Kaggle笔记本的长程、多轮数据分析任务上的基准测试;实验表明,最佳模型仅能达到48%的准确率,且随着轮数增加准确率显著下降。
查看缓存全文
缓存时间: 2026/06/01 03:18
论文页面 - LongDS-Bench:长程智能数据分析的失败原因分析
来源:https://huggingface.co/papers/2605.30434
摘要
LongDS基准测试利用Kaggle笔记本中的真实任务,评估智能体在长时间数据分析会话中维护和更新分析状态的能力。
真实世界的数据分析本质上是迭代的,但现有基准测试大多评估孤立或短交互任务,未能测试智能体在长程范围内跟踪不断变化的分析上下文的能力。我们提出LongDS,一个用于长程、多轮数据分析的基准测试,要求智能体维护、更新、恢复和组合不断变化的分析状态。LongDS包含68个任务,这些任务基于真实的Kaggle笔记本构建,涵盖2,225个回合,跨越地球科学、商业、教育等六个领域。任务围绕状态演化模式(例如反事实扰动、回溯、多状态组合)设计,平均依赖跨度为11.3个回合。在评估五个最先进的模型后,我们发现最佳模型的平均准确率仅为48.45%,从早期回合到晚期回合性能下降近47个百分点,且长程错误占失败原因的52%至69%。进一步分析表明,增加智能体步骤并不一定能提高性能,这表明关键瓶颈在于保持正确的分析状态,而非增加交互预算。我们发布LongDS以支持可靠的长程智能数据分析研究。代码和数据将在 https://github.com/zjunlp/DataMind 发布。
查看arXiv页面 (https://arxiv.org/abs/2605.30434) 查看PDF (https://arxiv.org/pdf/2605.30434) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.30434)
在你的智能体中获取此论文:
hf papers read 2605.30434
没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接此论文
在模型的README.md中引用 arxiv.org/abs/2605.30434 以从此页面链接。
引用此论文的数据集0
没有数据集链接此论文
在数据集的README.md中引用 arxiv.org/abs/2605.30434 以从此页面链接。
引用此论文的Space0
没有Space链接此论文
在Space的README.md中引用 arxiv.org/abs/2605.30434 以从此页面链接。
包含此论文的收藏集0
没有收藏集包含此论文
将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 以从此页面链接。
相似文章
预测Metr的时间跨度数据
本文分析并预测了Metr的时间跨度数据,这些数据可能与AI开发时间线及预测相关。
@llama_index:LiteParse v2.1 来了,它带来了迄今为止最快的 Markdown 输出。在此版本中,我们实现了我们的……
LiteParse v2.1 发布,提供了最快的无 LLM PDF 转 Markdown 转换,在无模型工具中基准测试得分最高。
@trycua: 1/ 今天我们正在将 Cua Driver 带到 Linux:为任何智能体提供后台计算机操控。Hermes、Claude Code、Codex 或你的…
Cua Driver 现已可在 Linux 上使用,支持通过 CLI 或 MCP 为任何 AI 智能体提供后台计算机操控,并兼容真实的 Linux 桌面应用。
@PrajwalTomar_:这太疯狂了。MiniMax 刚刚发布了 M3,它可能是目前构建应用最强大的开源模型。我给了……
MiniMax 发布了 M3,这是一款在编程基准测试中领先的开源 AI 模型,拥有 100 万 token 的上下文窗口,可处理整个代码库。
@neural_avb: 我最好的新习惯是让我的代理记录我在训练模型时使用的所有技巧和秘籍。我有日志……
作者分享了一个习惯:使用代理记录所有训练技巧和秘籍,包括超参数调整和数据集升级,以保持事实日志供日后参考和教程制作。