@leerob: https://x.com/leerob/status/2065469795529588940

X AI KOLs Following 新闻

摘要

Cursor AI 描述了其用于扩展 Composer 模型训练的递归代理系统,该系统使用一组自我管理的代理,在出现问题时向人类发出警报。该系统支持并行实验并加速研究,将研究人员的时间视为最稀缺的资源。

https://t.co/6nWAu8JVdw
查看原文
查看缓存全文

缓存时间: 2026/06/13 01:04

构建递归代理系统

在Cursor,我们运行着数千个代理来帮助我们训练下一版Composer。

我们会给它们分配研究任务,如果它们未能成功或遇到问题,就会通过Slack给我们发私信,或通过PagerDuty呼我们。

为Composer的训练规模化

我们已经构建了一个代理组织结构图,让它们协同工作。

随着我们为Composer的训练规模化,我们希望并行运行数以千计的实验。这在以前也可以做到,但速度慢且难以跟踪每个实验的状态。为了加快速度并实现并行化,我们构建了一个始终运行的代理系统(没错,它是一个循环)。

一个用于研究的代理系统

系统的工作原理如下:

  • 主代理在一台大型远程机器上运行,拥有你在本地使用的所有工具,外加一个磁盘上的文件作为整个集群的“收件箱”。

  • 它通过SSH连接运行着数百个子代理的机器,并将它们的状态收集到收件箱中。

  • 在每个循环中,它检查集群健康状况,让健康的任务在后台持续运行,并将任何异常情况通过Slack反馈给团队。

  • 像所有基础设施一样,代理偶尔会遇到临时问题或需要被“戳一下”,因此主代理可以控制整个集群,根据需要退出或重启进程。

这个“集群管理器”建立在我们之前关于长运行代理的研究基础之上。我们赋予了管理器许多不同的技能,这些技能编码了运行机器学习实验、审查监控结果等方面的隐性知识。

拥有超能力的研究人员

训练一个好模型意味着尝试许多想法来生成有用的强化学习数据。

一台笔记本电脑远远不够,你真正需要的是云中的电脑大军来并行运行实验。而且由于我们不受计算资源限制,我们为机器学习团队的所有人都部署了这套基础设施。

Cursor@cursor_ai·5月19日回复@cursor_ai与SpaceXAI合作,我们正在从头开始训练一个规模更大的模型,总计算量增加了10倍。

借助Colossus 2的百万级H100等效算力以及我们结合的数据和训练技术,我们预计这将是模型能力的一次重大飞跃。894014.8K1.1M

研究人员的时间是我们最稀缺的资源,我们找到了一种方法,将他们的杠杆效应放大数个数量级。想象一下,你有一个管理着10,000名直接下属的人类经理。显然这行不通,但这种“人类→代理”的组织结构却大致可行!

如果你有一个可验证的问题,投入更多token能更快或更好地解决它,那么值得考虑构建这样一个系统。它让我们拥有代理集群,在Composer的数据中爬行,递归地自我改进,为未来版本做准备。

如果这听起来令人兴奋,我们正在招聘!

相似文章