我在自己的多智能体编码设置上进行了13次对照实验。角色设定毫无作用;一个协调技巧几乎解决了所有问题。

Reddit r/AI_Agents 论文

摘要

一位AI研究人员在多智能体编码系统上进行了13次对照实验,发现依赖排序的协调显著提高了成功率,而角色背景故事没有带来可衡量的益处。

大多数多智能体代码库只是一堆角色设定,没有可证伪的主张。我想要数据,所以我用真实的预言机(一个TypeScript编译器和预注册的答案密钥)对自己的系统进行了约540次评分代理运行测试。经得起检验的有:* **依赖排序协调(“变更依赖图”)。** 先完成上游变更,然后将*真实*名称交给下游代理,而不是让它猜测。在4种合约变更类型中:朴素并行3/12,CDG排序12/12(编译器评分)。* 关键点在于:朴素并行在**Opus上通过了6/6**,但在**Sonnet上只通过了0/6**,任务相同。更强的模型只是猜对了相同的名称,从而隐藏了错误。协调带来了不变性。* 它还可以推广到代码之外(写作/咨询/游戏设计):9/9对比3/9。经不住检验的是(有趣的部分):* **角色背景故事:** 在5个角色中进行了安慰剂对照,没有可衡量的益处。一个无关的背景故事效果也一样好。关键在于*检查清单*,而不是身份。* **确定性测试门存在覆盖天花板。** 未测试路径中的逻辑错误可以顺利通过,即使代理自信地报告“所有测试通过”。* **3个顾问发现了所有15个植入的问题。** 第4到第10个顾问没有增加任何独特的内容。我特意发布了这些有损我自己设计的结果,包括两次实验设置崩溃并意外重新确认了某个发现的情况。欢迎在评论中询问方法论问题或质疑设计。
查看原文

相似文章

超越自主性:了解自身局限的智能体之力量

Reddit r/AI_Agents

COWCORPUS项目通过对4200次人机交互的研究发现,能够预测自身失败和干预时机的智能体,比那些仅仅试图避免错误的智能体更有用。研究人员识别出人机协作中四种稳定的信任模式,并开发了完美时机评分(PTS)来衡量干预预测的准确性。