我在自己的多智能体编码设置上进行了13次对照实验。角色设定毫无作用;一个协调技巧几乎解决了所有问题。
摘要
一位AI研究人员在多智能体编码系统上进行了13次对照实验,发现依赖排序的协调显著提高了成功率,而角色背景故事没有带来可衡量的益处。
大多数多智能体代码库只是一堆角色设定,没有可证伪的主张。我想要数据,所以我用真实的预言机(一个TypeScript编译器和预注册的答案密钥)对自己的系统进行了约540次评分代理运行测试。经得起检验的有:* **依赖排序协调(“变更依赖图”)。** 先完成上游变更,然后将*真实*名称交给下游代理,而不是让它猜测。在4种合约变更类型中:朴素并行3/12,CDG排序12/12(编译器评分)。* 关键点在于:朴素并行在**Opus上通过了6/6**,但在**Sonnet上只通过了0/6**,任务相同。更强的模型只是猜对了相同的名称,从而隐藏了错误。协调带来了不变性。* 它还可以推广到代码之外(写作/咨询/游戏设计):9/9对比3/9。经不住检验的是(有趣的部分):* **角色背景故事:** 在5个角色中进行了安慰剂对照,没有可衡量的益处。一个无关的背景故事效果也一样好。关键在于*检查清单*,而不是身份。* **确定性测试门存在覆盖天花板。** 未测试路径中的逻辑错误可以顺利通过,即使代理自信地报告“所有测试通过”。* **3个顾问发现了所有15个植入的问题。** 第4到第10个顾问没有增加任何独特的内容。我特意发布了这些有损我自己设计的结果,包括两次实验设置崩溃并意外重新确认了某个发现的情况。欢迎在评论中询问方法论问题或质疑设计。
相似文章
我一直在尝试自定义智能体,有趣的部分并非任务完成,而是它们拥有记忆后发生的变化
作者反思了实验自定义 AI 智能体的经历,指出长期记忆和连续性将智能体从简单的任务执行者转变为具有“稳定倾向”的持久协作伙伴。这引发了关于智能体“个性”的价值与工作流程中控制、可靠性和可审计性需求之间的矛盾的问题。
我经营一家拥有89个AI代理、横跨22个部门的公司。以下是我在多代理协调方面的经验总结。
一位CEO分享了经营一家拥有89个AI代理、横跨22个部门的公司的实用经验,强调了委托是瓶颈、代理记忆的价值、部门结构的必要性以及人类领导力的持续重要性。
我不再尝试构建一个超级智能体,而是将其拆分为 4 个专用智能体。可靠性大幅提升。
作者描述了如何通过将单个通用智能体替换为专注于接入、调研、执行和审查的四智能体工作流,来提高 AI 智能体的可靠性。这种转变优先考虑系统的可预测性和更轻松的调试,而非纯粹的自主性。
超越自主性:了解自身局限的智能体之力量
COWCORPUS项目通过对4200次人机交互的研究发现,能够预测自身失败和干预时机的智能体,比那些仅仅试图避免错误的智能体更有用。研究人员识别出人机协作中四种稳定的信任模式,并开发了完美时机评分(PTS)来衡量干预预测的准确性。
我为一款AI编程代理提供了结构化执行框架,并让它迭代了数十轮。长任务稳定性上的差异变得难以忽视。
作者用结构化执行框架测试了一款AI编程代理,发现它显著提升了长任务稳定性,使得该代理能够在数十次迭代中构建一个完整的浏览器战术FPS游戏,而不会出现架构漂移。