通用智能体能否自动完成数据筛选？

Hugging Face Daily Papers 2026/06/02 00:00 论文

data-curation generalist-agents coding-agents automated-ml machine-learning data-selection fine-tuning

摘要

本文探讨了通用编码智能体（Claude Code、Codex等）能否自动完成数据筛选循环，在10次迭代内达到已发表基准水平，但揭示了探索新方法方面的差距。一种强制智能体适配先前研究的脚手架策略，能以十分之一的数据量产出优于基准的策略。

训练数据的筛选是当代AI开发中最重要但最耗时的工作之一：实践者需要针对嘈杂的基准反馈，反复提出、实施、评估并修改数据策略。我们探究通用编码智能体能否自动化这一数据筛选循环。我们引入了*Curation-Bench*，一个以智能体为中心的基准测试，它固定了模型、训练配方和评估套件，同时赋予智能体命令行权限以检查数据、实施策略、提交至固定的训练/评估流水线并进行修订。在视觉语言指令微调用例中，开箱即用的智能体在十次迭代内达到了强大的已发表数据选择基线。然而，轨迹分析揭示了一个持久的*执行-研究差距*：即使提供了策略指南和论文参考文献，智能体主要调整局部策略变体，而非探索新的策略家族。要求每次迭代引用、实例化并适配先前方法的脚手架策略，能将智能体转向方法导向的探索。采用脚手架的智能体自动组合（无需人工设计输入）了一种数据选择策略，在仅使用十分之一数据预算的情况下，胜过强大的已发表基线。总体而言，当前智能体能够运行筛选循环，但可靠的数据研究需要脚手架式方法适配，而非仅靠开放式提示。代码和基准测试已开源。

查看原文

查看缓存全文

缓存时间: 2026/06/12 02:52

论文页面 - 通用智能体能自动化数据策展吗？

来源：https://huggingface.co/papers/2606.04261 大家好。以下是我们认为有趣部分的快速总结：

通用编码智能体（Claude Code、Codex、搭载Kimi K2.5 / Qwen3.5-397B的OpenHands）已经能够运行完整的数据策展循环：检查数据池、实现选择策略、训练、评估、修正。它们在10次迭代内即可媲美已发表的数据选择基线（ICONS、ARDS），仅使用LLaVA-665K的1.5%数据即可恢复约60%的全数据微调收益。该循环不限于指令微调：同样的设置也适用于DataComp-Small上的CLIP预训练，智能体在该任务中明显击败了最强的过滤基线（前30% CLIP L/14得分）。

但轨迹分析揭示了我们所称的执行-研究鸿沟：智能体倾向于调整局部旋钮（源数据比例、长度阈值、随机种子），而非探索新的方法族。在典型的开放式提示运行中，只有2/10的迭代尝试了真正新颖的内容。策略指南和论文参考文献无法解决这一问题。但如果使用一个要求每次迭代都必须引用、实例化并改编自先前研究方法的脚手架，情况则有所不同：该智能体组合出了一套EL2N式的高损失+噪声过滤策略（无需任何人类设计输入），在数据预算仅有十分之一的情况下击败了已发布的基线。

我们发现另一有趣现象：策展搜索本身具有可扩展性。将智能体的预算从10次迭代增加到50次，平均结果持续改善，没有明显的平台期。在有限数据场景下，智能体搜索迭代的次数看起来是一个有意义的计算轴。

环境、轨迹诊断工具以及所有脚手架均已开源：https://github.com/feiyang-k/curation-bench。欢迎提问。

通用智能体能否自动完成数据筛选？

论文页面 - 通用智能体能自动化数据策展吗？

相似文章

通用智能体能否自动化数据整理流程？

日常工作场景下的Codex：超越编程的AI代理

@AlexGDimakis: 我对这项研究非常兴奋：我们展示了两个结果：1. 如果只进行随机采样（即独立尝试解决一个问题多次……

AI编程代理可复现社会科学发现

为什么所有构建的智能体都只是更差的Claude Code？

提交意见反馈