我在自己的多智能体编码设置上进行了13次对照实验。角色设定毫无作用；一个协调技巧几乎解决了所有问题。

Reddit r/AI_Agents 2026/05/29 12:04 论文

multi-agent coding coordination experiments personas typescript agent-runs

摘要

一位AI研究人员在多智能体编码系统上进行了13次对照实验，发现依赖排序的协调显著提高了成功率，而角色背景故事没有带来可衡量的益处。

大多数多智能体代码库只是一堆角色设定，没有可证伪的主张。我想要数据，所以我用真实的预言机（一个TypeScript编译器和预注册的答案密钥）对自己的系统进行了约540次评分代理运行测试。经得起检验的有：* **依赖排序协调（“变更依赖图”）。** 先完成上游变更，然后将*真实*名称交给下游代理，而不是让它猜测。在4种合约变更类型中：朴素并行3/12，CDG排序12/12（编译器评分）。* 关键点在于：朴素并行在**Opus上通过了6/6**，但在**Sonnet上只通过了0/6**，任务相同。更强的模型只是猜对了相同的名称，从而隐藏了错误。协调带来了不变性。* 它还可以推广到代码之外（写作/咨询/游戏设计）：9/9对比3/9。经不住检验的是（有趣的部分）：* **角色背景故事：** 在5个角色中进行了安慰剂对照，没有可衡量的益处。一个无关的背景故事效果也一样好。关键在于*检查清单*，而不是身份。* **确定性测试门存在覆盖天花板。** 未测试路径中的逻辑错误可以顺利通过，即使代理自信地报告“所有测试通过”。* **3个顾问发现了所有15个植入的问题。** 第4到第10个顾问没有增加任何独特的内容。我特意发布了这些有损我自己设计的结果，包括两次实验设置崩溃并意外重新确认了某个发现的情况。欢迎在评论中询问方法论问题或质疑设计。

查看原文

我在自己的多智能体编码设置上进行了13次对照实验。角色设定毫无作用；一个协调技巧几乎解决了所有问题。

相似文章

我一直在尝试自定义智能体，有趣的部分并非任务完成，而是它们拥有记忆后发生的变化

我经营一家拥有89个AI代理、横跨22个部门的公司。以下是我在多代理协调方面的经验总结。

我不再尝试构建一个超级智能体，而是将其拆分为 4 个专用智能体。可靠性大幅提升。

超越自主性：了解自身局限的智能体之力量

我为一款AI编程代理提供了结构化执行框架，并让它迭代了数十轮。长任务稳定性上的差异变得难以忽视。

提交意见反馈