通用智能体能否自动化数据整理流程？

arXiv cs.AI 2026/06/04 04:00 论文

data-curation ai-agents benchmarking automation vision-language llm-agents open-source

摘要

研究人员推出 Curation-Bench，一个用于评估通用编程智能体能否在 AI 开发中自动完成迭代数据整理循环的基准测试。结果表明，智能体可在十次迭代内达到强基线水平，但可靠的数据研究需要有脚手架支撑的方法适配，而非仅依赖开放式提示。

arXiv:2606.04261v1 论文类型：新论文摘要：训练数据的整理是现代 AI 开发中影响最深远却又最耗费人力的环节之一——从业者需要不断提出、实现、评估并根据嘈杂的基准反馈修订数据策略。我们探讨通用编程智能体能否自动化这一数据整理循环。我们提出了 *Curation-Bench*——一个以智能体为中心的基准测试，该基准固定了模型、训练方案和评估套件，同时赋予智能体命令行访问权限，使其能够检查数据、实现策略、将其提交至固定的训练/评估流水线，并进行修订。在视觉-语言指令微调的实例化场景中，开箱即用的智能体可在十次迭代内达到已发表的强数据选择基线水平。然而，轨迹分析揭示了一个持续存在的*执行-研究鸿沟*：即便提供了策略指南和论文参考，智能体主要仍在对局部策略变体进行调优，而非探索新的策略族。要求每次迭代引用、实例化并适配先前方法的脚手架机制，能有效引导智能体转向以方法为导向的探索。经脚手架支撑的智能体在无需人工设计介入的情况下，自主组合出一种数据选择策略，该策略以十分之一的数据预算超越了已发表的强基线。总体而言，当前智能体能够运行整理循环，但可靠的数据研究需要有脚手架支撑的方法适配，而非单纯依赖开放式提示。代码和基准测试均已开源。

查看原文

查看缓存全文

缓存时间: 2026/06/05 02:06

# 通用智能体能否自动化数据策划？

来源：https://arxiv.org/abs/2606.04261
查看 PDF (https://arxiv.org/pdf/2606.04261)

> 摘要：训练数据策划是现代 AI 开发中最具影响力却也最耗费人力的环节之一：从业者需要针对嘈杂的基准反馈，反复提出、实施、评估并修订数据策略。我们探讨通用编程智能体能否自动化这一数据策划循环。我们提出了 *Curation-Bench*——一个以智能体为中心的基准，它固定模型、训练方案和评估套件，同时赋予智能体命令行访问权限，使其能够检查数据、实施策略、将策略提交至固定的训练/评估流水线，并进行修订。在视觉-语言指令微调的实例化场景中，开箱即用的智能体在十轮迭代内即可达到已发表的强数据选择基线水平。然而，轨迹分析揭示了一个持续存在的*执行-研究差距*：即便提供了策略指南和论文参考，智能体主要对局部策略变体进行微调，而非探索新的策略族。要求每轮迭代引用、实例化并适配一种已有方法的脚手架，能够推动智能体转向以方法为导向的探索。经过脚手架增强的智能体在无需人工设计介入的情况下，自主组合出一种数据选择策略，该策略在仅使用十分之一数据预算的情况下，性能超越了已发表的强基线方法。总体而言，当前智能体能够运行策划循环，但可靠的数据研究需要有脚手架引导的方法适配，而非单纯的开放式提示。代码与基准已开源。

## 提交历史

来自：Feiyang Kang \[查看邮箱 (https://arxiv.org/show-email/2c993ff5/2606.04261)\] **\[v1\]** 2026年6月2日（周二）22:26:53 UTC（2,150 KB）

通用智能体能否自动化数据整理流程？

相似文章

通用智能体能否自动完成数据筛选？

神经数据不再无聊：代理型AI在数据复用中的基准测试

AI编程代理可复现社会科学发现

自动化智能体评估的实证研究

神经科学数据到发现流程中AI代理评估的案例研究

提交意见反馈