AgenticDataBench：面向数据代理的综合性基准测试

Hugging Face Daily Papers 2026/07/02 00:00 论文

benchmark data-agents data-science llm evaluation open-source

摘要

介绍了AgenticDataBench，这是一个综合性基准测试，用于评估基于大语言模型的数据代理在不同领域中的表现，提供细粒度、基于技能的指标，包括实际B2B用例和合成任务。

数据科学旨在从异构原始数据中提取可操作的洞察，释放现代社会海量数据的价值。自动化这一过程对于减少数据科学家的劳动密集型工作以及实现可扩展的数据驱动应用至关重要。近年来，基于大语言模型（LLM）的数据代理已成为自动化数据科学工作流程的有效解决方案。然而，该领域缺乏全面的基准测试，无法以细粒度对跨各种场景的代理进行严格评估。为弥补这一不足，我们提出了AgenticDataBench，这是一个综合性基准测试，包含跨多个领域的逼真任务和细粒度的真实标签。这使得评估能够捕捉数据科学工作流程的多样性和复杂性，以及代理的详细性能。首先，为覆盖不同领域，我们从15个垂直领域收集了真实数据集和任务，其中包括来自一家领先金融科技公司的5个实际B2B用例。其次，为消除真实任务中的冗余，并为缺乏真实数据的领域生成高质量任务，我们引入了数据科学技能、循环数据驱动的操作模式，并通过包含的技能数量来量化基准测试的覆盖范围。代表性技能通过基于技能对齐的层次聚类从Stack Overflow上的大规模任务解决方案中提取。第三，对于实际业务任务，我们选择在技能组合上多样性最大化的任务-解决方案对，以确保对实际场景的广泛覆盖。第四，为没有真实任务的领域生成逼真的任务，我们提出了一种基于LLM的系统化任务生成方法，基于这些技能创建工作流程和任务。最后，我们使用带注释的基准测试和开源测试平台评估了最先进的数据代理，提供了详细的技能级别洞察。

查看原文

查看缓存全文

缓存时间: 2026/07/03 03:52

论文页面 - AgenticDataBench：面向数据智能体的综合基准

来源：https://huggingface.co/papers/2607.01647 作者：

，

摘要

本文提出了一个名为 AgenticDataBench 的综合基准，通过细粒度的任务标注和基于技能的覆盖度量，对跨多个领域的数据智能体进行评估。

数据科学旨在从异构原始数据中提取可操作的洞察，挖掘现代社会中海量数据的价值。自动化这一过程对于减少数据科学家的劳动密集型工作、实现可扩展的数据驱动应用至关重要。近年来，基于大型语言模型（https://huggingface.co/papers?q=large%20language%20model）(LLM) 的数据智能体（https://huggingface.co/papers?q=data%20agents）已成为自动化数据科学工作流（https://huggingface.co/papers?q=data%20science%20workflows）的一种有前景的解决方案。然而，该领域缺乏全面的基准（https://huggingface.co/papers?q=benchmark）来严格评估这些智能体在不同场景下的细粒度（https://huggingface.co/papers?q=fine-grained%20granularity）表现。为填补这一空白，我们提出了 AgenticDataBench，这是一个包含跨多个领域的真实任务、并配备细粒度真值标签的综合基准（https://huggingface.co/papers?q=benchmark）。这使得评估能够捕捉数据科学工作流（https://huggingface.co/papers?q=data%20science%20workflows）的多样性和复杂性，以及智能体的详细性能。首先，为了覆盖多样化的领域，我们从 15 个垂直领域收集了真实数据集和任务，其中包括来自一家头部金融科技公司的 5 个真实 B2B 用例。其次，为了消除真实任务（https://huggingface.co/papers?q=real-world%20tasks）中的冗余，并为缺乏真实数据的领域生成高质量任务，我们引入了数据科学技能——即反复出现的数据中心操作模式（https://huggingface.co/papers?q=data-centric%20operational%20patterns），并通过所包含的技能数量来量化基准（https://huggingface.co/papers?q=benchmark）的覆盖范围。代表性技能是通过基于技能对齐的层次聚类（https://huggingface.co/papers?q=skill-aligned%20hierarchical%20clustering）从 Stack Overflow 上的大规模任务解决方案中提取的。第三，针对真实商业任务，我们选择那些在技能组合上多样性最大化的任务-解决方案对，以确保对实际场景的广泛覆盖。第四，为了为缺乏真实任务的设备域生成真实任务，我们提出了一种基于 LLM 的系统化任务生成（https://huggingface.co/papers?q=task%20generation）方法，基于这些技能创建工作流和任务。最后，我们使用我们标注的基准（https://huggingface.co/papers?q=benchmark）和开源的测试平台对最新数据智能体（https://huggingface.co/papers?q=data%20agents）进行了评估，提供了详细的技能级洞察。

查看 arXiv 页面（https://arxiv.org/abs/2607.01647）查看 PDF（https://arxiv.org/pdf/2607.01647）项目页面（https://agenticdatabench.github.io/）GitHub19（https://github.com/AgenticDataBench/AgenticDataBench）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2607.01647）

引用该论文的模型0

没有模型与此论文关联

在模型 README.md 中引用 arxiv.org/abs/2607.01647 以将其链接至此页面。

引用该论文的数据集1

shawnzzzh/AgenticDataBench 预览• 更新于约 1 小时前 • 604 • 1（https://huggingface.co/datasets/shawnzzzh/AgenticDataBench）

引用该论文的 Spaces0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2607.01647 以将其链接至此页面。

包含此论文的收藏0

没有收藏包含此论文

添加此论文到收藏（https://huggingface.co/new-collection）以将其链接至此页面。

AgenticDataBench：面向数据代理的综合性基准测试

论文页面 - AgenticDataBench：面向数据智能体的综合基准

摘要

引用该论文的模型0

引用该论文的数据集1

shawnzzzh/AgenticDataBench 预览• 更新于约 1 小时前 • 604 • 1（https://huggingface.co/datasets/shawnzzzh/AgenticDataBench）

引用该论文的 Spaces0

包含此论文的收藏0

相似文章

Agent-ValueBench：一个评估智能体价值观的综合基准

AJ-Bench：面向环境感知评估的 Agent-as-a-Judge 评测基准

EnterpriseClawBench：基于真实工作会话的智能体基准测试

EComAgentBench：面向长周期任务与分布式隐藏意图的购物代理基准测试

HealthAgentBench: 面向前沿AI智能体的统一真实医疗智能体环境基准套件

提交意见反馈