通用智能体能否自动化数据整理流程?

arXiv cs.AI 论文

摘要

研究人员推出 Curation-Bench,一个用于评估通用编程智能体能否在 AI 开发中自动完成迭代数据整理循环的基准测试。结果表明,智能体可在十次迭代内达到强基线水平,但可靠的数据研究需要有脚手架支撑的方法适配,而非仅依赖开放式提示。

arXiv:2606.04261v1 论文类型:新论文 摘要:训练数据的整理是现代 AI 开发中影响最深远却又最耗费人力的环节之一——从业者需要不断提出、实现、评估并根据嘈杂的基准反馈修订数据策略。我们探讨通用编程智能体能否自动化这一数据整理循环。我们提出了 *Curation-Bench*——一个以智能体为中心的基准测试,该基准固定了模型、训练方案和评估套件,同时赋予智能体命令行访问权限,使其能够检查数据、实现策略、将其提交至固定的训练/评估流水线,并进行修订。在视觉-语言指令微调的实例化场景中,开箱即用的智能体可在十次迭代内达到已发表的强数据选择基线水平。然而,轨迹分析揭示了一个持续存在的*执行-研究鸿沟*:即便提供了策略指南和论文参考,智能体主要仍在对局部策略变体进行调优,而非探索新的策略族。要求每次迭代引用、实例化并适配先前方法的脚手架机制,能有效引导智能体转向以方法为导向的探索。经脚手架支撑的智能体在无需人工设计介入的情况下,自主组合出一种数据选择策略,该策略以十分之一的数据预算超越了已发表的强基线。总体而言,当前智能体能够运行整理循环,但可靠的数据研究需要有脚手架支撑的方法适配,而非单纯依赖开放式提示。代码和基准测试均已开源。
查看原文
查看缓存全文

缓存时间: 2026/06/05 02:06

# 通用智能体能否自动化数据策划?

来源:https://arxiv.org/abs/2606.04261
查看 PDF (https://arxiv.org/pdf/2606.04261)

> 摘要:训练数据策划是现代 AI 开发中最具影响力却也最耗费人力的环节之一:从业者需要针对嘈杂的基准反馈,反复提出、实施、评估并修订数据策略。我们探讨通用编程智能体能否自动化这一数据策划循环。我们提出了 *Curation-Bench*——一个以智能体为中心的基准,它固定模型、训练方案和评估套件,同时赋予智能体命令行访问权限,使其能够检查数据、实施策略、将策略提交至固定的训练/评估流水线,并进行修订。在视觉-语言指令微调的实例化场景中,开箱即用的智能体在十轮迭代内即可达到已发表的强数据选择基线水平。然而,轨迹分析揭示了一个持续存在的*执行-研究差距*:即便提供了策略指南和论文参考,智能体主要对局部策略变体进行微调,而非探索新的策略族。要求每轮迭代引用、实例化并适配一种已有方法的脚手架,能够推动智能体转向以方法为导向的探索。经过脚手架增强的智能体在无需人工设计介入的情况下,自主组合出一种数据选择策略,该策略在仅使用十分之一数据预算的情况下,性能超越了已发表的强基线方法。总体而言,当前智能体能够运行策划循环,但可靠的数据研究需要有脚手架引导的方法适配,而非单纯的开放式提示。代码与基准已开源。

## 提交历史

来自:Feiyang Kang \[查看邮箱 (https://arxiv.org/show-email/2c993ff5/2606.04261)\] **\[v1\]** 2026年6月2日(周二)22:26:53 UTC(2,150 KB)

相似文章

通用智能体能否自动完成数据筛选?

Hugging Face Daily Papers

本文探讨了通用编码智能体(Claude Code、Codex等)能否自动完成数据筛选循环,在10次迭代内达到已发表基准水平,但揭示了探索新方法方面的差距。一种强制智能体适配先前研究的脚手架策略,能以十分之一的数据量产出优于基准的策略。

AI编程代理可复现社会科学发现

arXiv cs.CL

本文介绍了SocSci-Repro-Bench,这是一个包含221个任务的基准测试,用于评估AI编程代理从原始数据和代码中复现社会科学发现的能力。研究发现,像Claude Code和Codex这样的前沿代理可以复现大部分结果,其中Claude明显优于Codex,并且结果并非主要由记忆驱动。

自动化智能体评估的实证研究

arXiv cs.CL

本文介绍了 EvalAgent,这是一个通过编码领域专业知识来自动化 AI 智能体评估的系统,旨在解决标准编程助手在此任务中的局限性。此外,本文还提出了用于测试评估流程的基准 AgentEvalBench,并展示了在评估可靠性方面的显著提升。

神经科学数据到发现流程中AI代理评估的案例研究

arXiv cs.AI

本文提出了一项实证研究,评估通用编码代理在果蝇光遗传学数据到发现流程中的表现。研究发现,虽然代理能够自动化单个阶段,但在需要科学判断和资源管理的端到端任务中表现不佳。