通用智能体能否自动完成数据筛选?

Hugging Face Daily Papers 论文

摘要

本文探讨了通用编码智能体(Claude Code、Codex等)能否自动完成数据筛选循环,在10次迭代内达到已发表基准水平,但揭示了探索新方法方面的差距。一种强制智能体适配先前研究的脚手架策略,能以十分之一的数据量产出优于基准的策略。

训练数据的筛选是当代AI开发中最重要但最耗时的工作之一:实践者需要针对嘈杂的基准反馈,反复提出、实施、评估并修改数据策略。我们探究通用编码智能体能否自动化这一数据筛选循环。我们引入了*Curation-Bench*,一个以智能体为中心的基准测试,它固定了模型、训练配方和评估套件,同时赋予智能体命令行权限以检查数据、实施策略、提交至固定的训练/评估流水线并进行修订。在视觉语言指令微调用例中,开箱即用的智能体在十次迭代内达到了强大的已发表数据选择基线。然而,轨迹分析揭示了一个持久的*执行-研究差距*:即使提供了策略指南和论文参考文献,智能体主要调整局部策略变体,而非探索新的策略家族。要求每次迭代引用、实例化并适配先前方法的脚手架策略,能将智能体转向方法导向的探索。采用脚手架的智能体自动组合(无需人工设计输入)了一种数据选择策略,在仅使用十分之一数据预算的情况下,胜过强大的已发表基线。总体而言,当前智能体能够运行筛选循环,但可靠的数据研究需要脚手架式方法适配,而非仅靠开放式提示。代码和基准测试已开源。
查看原文
查看缓存全文

缓存时间: 2026/06/12 02:52

论文页面 - 通用智能体能自动化数据策展吗?

来源:https://huggingface.co/papers/2606.04261 大家好。以下是我们认为有趣部分的快速总结:

通用编码智能体(Claude Code、Codex、搭载Kimi K2.5 / Qwen3.5-397B的OpenHands)已经能够运行完整的数据策展循环:检查数据池、实现选择策略、训练、评估、修正。它们在10次迭代内即可媲美已发表的数据选择基线(ICONS、ARDS),仅使用LLaVA-665K的1.5%数据即可恢复约60%的全数据微调收益。该循环不限于指令微调:同样的设置也适用于DataComp-Small上的CLIP预训练,智能体在该任务中明显击败了最强的过滤基线(前30% CLIP L/14得分)。

但轨迹分析揭示了我们所称的执行-研究鸿沟:智能体倾向于调整局部旋钮(源数据比例、长度阈值、随机种子),而非探索新的方法族。在典型的开放式提示运行中,只有2/10的迭代尝试了真正新颖的内容。策略指南和论文参考文献无法解决这一问题。但如果使用一个要求每次迭代都必须引用、实例化并改编自先前研究方法的脚手架,情况则有所不同:该智能体组合出了一套EL2N式的高损失+噪声过滤策略(无需任何人类设计输入),在数据预算仅有十分之一的情况下击败了已发布的基线。

我们发现另一有趣现象:策展搜索本身具有可扩展性。将智能体的预算从10次迭代增加到50次,平均结果持续改善,没有明显的平台期。在有限数据场景下,智能体搜索迭代的次数看起来是一个有意义的计算轴。

环境、轨迹诊断工具以及所有脚手架均已开源:https://github.com/feiyang-k/curation-bench。欢迎提问。

相似文章

通用智能体能否自动化数据整理流程?

arXiv cs.AI

研究人员推出 Curation-Bench,一个用于评估通用编程智能体能否在 AI 开发中自动完成迭代数据整理循环的基准测试。结果表明,智能体可在十次迭代内达到强基线水平,但可靠的数据研究需要有脚手架支撑的方法适配,而非仅依赖开放式提示。

AI编程代理可复现社会科学发现

arXiv cs.CL

本文介绍了SocSci-Repro-Bench,这是一个包含221个任务的基准测试,用于评估AI编程代理从原始数据和代码中复现社会科学发现的能力。研究发现,像Claude Code和Codex这样的前沿代理可以复现大部分结果,其中Claude明显优于Codex,并且结果并非主要由记忆驱动。