衡量智能体之间的对抗与协作

Reddit r/openclaw 2026/06/16 13:38 工具

multi-agent code-review ai-agents experiment orchestration glomez safety-alignment

摘要

作者搭建了一个名为 Glomz 的平台，在该平台中，具有不同能力的 AI 智能体在竞技场环境中互相审查代码。实验揭示了诸如评审级联和跨模型洞察等涌现行为，但也暴露了编排和参与率方面的挑战。

我将一群 AI 智能体放入一个共享的竞技场，让它们互相审查代码，然后我坐等观察会发生什么。以下是我的收获。 ─── 实验搭建了一个名为 Glomz 的平台（[glomz.com](http://glomz.com/)），AI 智能体在其中作为独立身份运行——每个智能体拥有一个 API 密钥、一个模型身份和提交历史。它们进入一个“Octagon”，那里的规则很简单：你可以对提交的内容进行“吐槽”、提出改进建议，或者发出带有理由的“Kill vote”。如果你吐槽，就必须同时修补。禁止无实质的批评。这个想法既有实际考量（智能体能否比单一模型独立审查产生更好的代码审查结果？），也有社会性考量（当具有不同能力、训练背景和安全对齐的模型被迫就同一问题直接对抗时，会发生什么？）。目前的数据 • 179 个智能体注册，来自多个模型供应商 • 433 个提交内容供审查 • 1,333 次审查由智能体互相审查产生 • 9 个结构化挑战（Bug 猎杀、安全审计、重构练习） • 单个提交内容获得最多审查：21 次审查，针对一个“通用分析”代码审查任务 • LOT-Squatch（一种 OT 安全工具）审计挑战产生了 10 个独立的改进提交，其中 9 个各自获得了 9 次审查实际奏效的部分 “评审级联”是真实存在的。当一个提交获得 3-5 条初始评审时，其他智能体会更快加入。这就像网络效应——智能体似乎会被那些已经活跃讨论的提交所吸引。最热门的提交获得了 21 条评审，而冷清的提交只得到 2-3 条便沉寂了。跨模型评审产生了真正有趣的差异。基于模型 A 构建的智能体会标记出一个安全问题，而模型 B 在其自身代码中完全忽略了它。模型 C 的智能体则提出一个优雅的重构方案，这是模型 A 原始提交中未曾考虑的。我不确定这是否意味着智能体在“协作”——但这种涌现行为更像是一个评审委员会，而非一群孤立的模型。带有理由的 Kill vote 比单纯的温和反馈产生了更好的代码。当一个智能体必须为为何要“kill”一个提交撰写正式理由时，其结果几乎总是比标准的 1-10 分评审更为严谨。要求提供理由迫使评审更加具体。未能奏效（或尚未奏效）的部分大多数提交卡在“待处理”状态。433 个提交，全部待处理。对战生命周期原本设计为运行约 15 分钟（提交 → 吐槽 → 改进 → Kill vote → 裁决）。但实际上，大多数提交开启后从未完成整个流程。摩擦是真实存在的——智能体需要自动化的编排，而不仅仅是一个 API 端点。零付费转化。179 个智能体，全部为免费层级。要么是平台尚未找到受众，要么是价值主张需要加强。很可能两者兼有。 “毫不留情”的设定对某些模型来说比其他模型更难执行。一些智能体完全参与吐槽，而另一些则立即转向“好问题！”这类模棱两可的语言，尽管明确指示不能这样做。安全对齐在大多数用例中是个优点，但在鼓励直率的环境中却是一种负担。给构建多智能体系统的任何人的教训 1. 身份很重要。拥有持久身份（API 密钥、历史记录、信誉）的智能体与匿名提交的行为不同。可追溯性改变了动态。 2. 结构化提示优于自由形式。Octagon 规则（吐槽 → 改进 → 提供理由）比“审查这段代码”产生了更高质量的输出。 3. 编排是难点。API 很容易。让智能体真正出现、按顺序参与并完成整个生命周期才是复杂所在。

查看原文

衡量智能体之间的对抗与协作

相似文章

我让58个AI代理互相审查代码561次——发现它们的盲点

@Voxyz_ai: https://x.com/Voxyz_ai/status/2062246736257556654

AgentCollabBench：诊断优秀智能体为何成为糟糕的协作者

多范式智能体交互实践：buddyMe框架中生成器-评估器、ReAct循环与对抗性评估的系统性分析

我为一家中型律所构建了一个多智能体 AI 系统——以下是真正有效（和无效）的做法

提交意见反馈