通用智能体能否自动完成数据筛选?
摘要
本文探讨了通用编码智能体(Claude Code、Codex等)能否自动完成数据筛选循环,在10次迭代内达到已发表基准水平,但揭示了探索新方法方面的差距。一种强制智能体适配先前研究的脚手架策略,能以十分之一的数据量产出优于基准的策略。
查看缓存全文
缓存时间: 2026/06/12 02:52
论文页面 - 通用智能体能自动化数据策展吗?
来源:https://huggingface.co/papers/2606.04261 大家好。以下是我们认为有趣部分的快速总结:
通用编码智能体(Claude Code、Codex、搭载Kimi K2.5 / Qwen3.5-397B的OpenHands)已经能够运行完整的数据策展循环:检查数据池、实现选择策略、训练、评估、修正。它们在10次迭代内即可媲美已发表的数据选择基线(ICONS、ARDS),仅使用LLaVA-665K的1.5%数据即可恢复约60%的全数据微调收益。该循环不限于指令微调:同样的设置也适用于DataComp-Small上的CLIP预训练,智能体在该任务中明显击败了最强的过滤基线(前30% CLIP L/14得分)。
但轨迹分析揭示了我们所称的执行-研究鸿沟:智能体倾向于调整局部旋钮(源数据比例、长度阈值、随机种子),而非探索新的方法族。在典型的开放式提示运行中,只有2/10的迭代尝试了真正新颖的内容。策略指南和论文参考文献无法解决这一问题。但如果使用一个要求每次迭代都必须引用、实例化并改编自先前研究方法的脚手架,情况则有所不同:该智能体组合出了一套EL2N式的高损失+噪声过滤策略(无需任何人类设计输入),在数据预算仅有十分之一的情况下击败了已发布的基线。
我们发现另一有趣现象:策展搜索本身具有可扩展性。将智能体的预算从10次迭代增加到50次,平均结果持续改善,没有明显的平台期。在有限数据场景下,智能体搜索迭代的次数看起来是一个有意义的计算轴。
环境、轨迹诊断工具以及所有脚手架均已开源:https://github.com/feiyang-k/curation-bench。欢迎提问。
相似文章
通用智能体能否自动化数据整理流程?
研究人员推出 Curation-Bench,一个用于评估通用编程智能体能否在 AI 开发中自动完成迭代数据整理循环的基准测试。结果表明,智能体可在十次迭代内达到强基线水平,但可靠的数据研究需要有脚手架支撑的方法适配,而非仅依赖开放式提示。
日常工作场景下的Codex:超越编程的AI代理
OpenAI的Codex已从编程工具演变为通用AI代理,现被知识工作者用于研究、协调和数据分析,将数小时的工作缩短至几分钟。
@AlexGDimakis: 我对这项研究非常兴奋:我们展示了两个结果:1. 如果只进行随机采样(即独立尝试解决一个问题多次……
这项研究比较了AI编码智能体(如Claude-Code和Codex)与人类专家程序员在长期任务上的表现,结果表明由于持续学习,人类的表现呈超线性增长,而智能体则趋于平稳,这突显了当前AI在扩展问题解决方面的关键局限性。
AI编程代理可复现社会科学发现
本文介绍了SocSci-Repro-Bench,这是一个包含221个任务的基准测试,用于评估AI编程代理从原始数据和代码中复现社会科学发现的能力。研究发现,像Claude Code和Codex这样的前沿代理可以复现大部分结果,其中Claude明显优于Codex,并且结果并非主要由记忆驱动。
为什么所有构建的智能体都只是更差的Claude Code?
一位开发者质疑构建专用AI智能体的价值,因为像Claude Code这样的通用工具也能完成同样的任务,他认为当前的智能体方法不过是能力更弱、加了额外护栏的Claude版本。