AgenticDataBench:面向数据代理的综合性基准测试
摘要
介绍了AgenticDataBench,这是一个综合性基准测试,用于评估基于大语言模型的数据代理在不同领域中的表现,提供细粒度、基于技能的指标,包括实际B2B用例和合成任务。
查看缓存全文
缓存时间: 2026/07/03 03:52
论文页面 - AgenticDataBench:面向数据智能体的综合基准
来源:https://huggingface.co/papers/2607.01647 作者:
,
,
,
,
,
,
,
,
,
,
摘要
本文提出了一个名为 AgenticDataBench 的综合基准,通过细粒度的任务标注和基于技能的覆盖度量,对跨多个领域的数据智能体进行评估。
数据科学旨在从异构原始数据中提取可操作的洞察,挖掘现代社会中海量数据的价值。自动化这一过程对于减少数据科学家的劳动密集型工作、实现可扩展的数据驱动应用至关重要。近年来,基于大型语言模型(https://huggingface.co/papers?q=large%20language%20model)(LLM) 的数据智能体(https://huggingface.co/papers?q=data%20agents)已成为自动化数据科学工作流(https://huggingface.co/papers?q=data%20science%20workflows)的一种有前景的解决方案。然而,该领域缺乏全面的基准(https://huggingface.co/papers?q=benchmark)来严格评估这些智能体在不同场景下的细粒度(https://huggingface.co/papers?q=fine-grained%20granularity)表现。为填补这一空白,我们提出了 AgenticDataBench,这是一个包含跨多个领域的真实任务、并配备细粒度真值标签的综合基准(https://huggingface.co/papers?q=benchmark)。这使得评估能够捕捉数据科学工作流(https://huggingface.co/papers?q=data%20science%20workflows)的多样性和复杂性,以及智能体的详细性能。首先,为了覆盖多样化的领域,我们从 15 个垂直领域收集了真实数据集和任务,其中包括来自一家头部金融科技公司的 5 个真实 B2B 用例。其次,为了消除真实任务(https://huggingface.co/papers?q=real-world%20tasks)中的冗余,并为缺乏真实数据的领域生成高质量任务,我们引入了数据科学技能——即反复出现的数据中心操作模式(https://huggingface.co/papers?q=data-centric%20operational%20patterns),并通过所包含的技能数量来量化基准(https://huggingface.co/papers?q=benchmark)的覆盖范围。代表性技能是通过基于技能对齐的层次聚类(https://huggingface.co/papers?q=skill-aligned%20hierarchical%20clustering)从 Stack Overflow 上的大规模任务解决方案中提取的。第三,针对真实商业任务,我们选择那些在技能组合上多样性最大化的任务-解决方案对,以确保对实际场景的广泛覆盖。第四,为了为缺乏真实任务的设备域生成真实任务,我们提出了一种基于 LLM 的系统化任务生成(https://huggingface.co/papers?q=task%20generation)方法,基于这些技能创建工作流和任务。最后,我们使用我们标注的基准(https://huggingface.co/papers?q=benchmark)和开源的测试平台对最新数据智能体(https://huggingface.co/papers?q=data%20agents)进行了评估,提供了详细的技能级洞察。
查看 arXiv 页面(https://arxiv.org/abs/2607.01647)查看 PDF(https://arxiv.org/pdf/2607.01647)项目页面(https://agenticdatabench.github.io/)GitHub19(https://github.com/AgenticDataBench/AgenticDataBench)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2607.01647)
引用该论文的模型0
没有模型与此论文关联
在模型 README.md 中引用 arxiv.org/abs/2607.01647 以将其链接至此页面。
引用该论文的数据集1
shawnzzzh/AgenticDataBench 预览• 更新于约 1 小时前 • 604 • 1(https://huggingface.co/datasets/shawnzzzh/AgenticDataBench)
引用该论文的 Spaces0
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2607.01647 以将其链接至此页面。
包含此论文的收藏0
没有收藏包含此论文
添加此论文到收藏(https://huggingface.co/new-collection)以将其链接至此页面。
相似文章
Agent-ValueBench:一个评估智能体价值观的综合基准
本文提出了 Agent-ValueBench,这是一个旨在评估自主智能体价值观的综合基准,揭示了智能体的价值观与其底层语言模型存在分歧。
AJ-Bench:面向环境感知评估的 Agent-as-a-Judge 评测基准
AJ-Bench 提出一套评测基准,用于衡量 Agent-as-a-Judge 系统通过与环境交互来验证智能体行为的能力,覆盖搜索、数据系统与 GUI 领域的 155 项任务。
EnterpriseClawBench:基于真实工作会话的智能体基准测试
EnterpriseClawBench 提出了一个基于真实工作场景的企业智能体基准,包含 852 个可复现任务以及超越单一性能分数的综合评估指标。
EComAgentBench:面向长周期任务与分布式隐藏意图的购物代理基准测试
介绍EComAgentBench,一个用于评估基于LLM的购物代理在长周期任务中处理隐藏意图的基准测试,这些意图分布在查询、用户画像和澄清过程中。该基准测试使用真实的亚马逊产品并进行自动评分,结果显示即使是最佳模型也仅达到57.1%的准确率。
HealthAgentBench: 面向前沿AI智能体的统一真实医疗智能体环境基准套件
本文介绍了HealthAgentBench,一个包含54个真实医疗任务的套件,用于评估前沿AI智能体。研究发现,即使是最强的智能体(Codex GPT-5.5)也仅能达到约42%的成功率,凸显了巨大的改进空间。