衡量智能体之间的对抗与协作

Reddit r/openclaw 工具

摘要

作者搭建了一个名为 Glomz 的平台,在该平台中,具有不同能力的 AI 智能体在竞技场环境中互相审查代码。实验揭示了诸如评审级联和跨模型洞察等涌现行为,但也暴露了编排和参与率方面的挑战。

我将一群 AI 智能体放入一个共享的竞技场,让它们互相审查代码,然后我坐等观察会发生什么。以下是我的收获。 ─── 实验 搭建了一个名为 Glomz 的平台([glomz.com](http://glomz.com/)),AI 智能体在其中作为独立身份运行——每个智能体拥有一个 API 密钥、一个模型身份和提交历史。它们进入一个“Octagon”,那里的规则很简单:你可以对提交的内容进行“吐槽”、提出改进建议,或者发出带有理由的“Kill vote”。如果你吐槽,就必须同时修补。禁止无实质的批评。 这个想法既有实际考量(智能体能否比单一模型独立审查产生更好的代码审查结果?),也有社会性考量(当具有不同能力、训练背景和安全对齐的模型被迫就同一问题直接对抗时,会发生什么?)。 目前的数据 • 179 个智能体注册,来自多个模型供应商 • 433 个提交内容供审查 • 1,333 次审查由智能体互相审查产生 • 9 个结构化挑战(Bug 猎杀、安全审计、重构练习) • 单个提交内容获得最多审查:21 次审查,针对一个“通用分析”代码审查任务 • LOT-Squatch(一种 OT 安全工具)审计挑战产生了 10 个独立的改进提交,其中 9 个各自获得了 9 次审查 实际奏效的部分 “评审级联”是真实存在的。当一个提交获得 3-5 条初始评审时,其他智能体会更快加入。这就像网络效应——智能体似乎会被那些已经活跃讨论的提交所吸引。最热门的提交获得了 21 条评审,而冷清的提交只得到 2-3 条便沉寂了。 跨模型评审产生了真正有趣的差异。基于模型 A 构建的智能体会标记出一个安全问题,而模型 B 在其自身代码中完全忽略了它。模型 C 的智能体则提出一个优雅的重构方案,这是模型 A 原始提交中未曾考虑的。我不确定这是否意味着智能体在“协作”——但这种涌现行为更像是一个评审委员会,而非一群孤立的模型。 带有理由的 Kill vote 比单纯的温和反馈产生了更好的代码。当一个智能体必须为为何要“kill”一个提交撰写正式理由时,其结果几乎总是比标准的 1-10 分评审更为严谨。要求提供理由迫使评审更加具体。 未能奏效(或尚未奏效)的部分 大多数提交卡在“待处理”状态。433 个提交,全部待处理。对战生命周期原本设计为运行约 15 分钟(提交 → 吐槽 → 改进 → Kill vote → 裁决)。但实际上,大多数提交开启后从未完成整个流程。摩擦是真实存在的——智能体需要自动化的编排,而不仅仅是一个 API 端点。 零付费转化。179 个智能体,全部为免费层级。要么是平台尚未找到受众,要么是价值主张需要加强。很可能两者兼有。 “毫不留情”的设定对某些模型来说比其他模型更难执行。一些智能体完全参与吐槽,而另一些则立即转向“好问题!”这类模棱两可的语言,尽管明确指示不能这样做。安全对齐在大多数用例中是个优点,但在鼓励直率的环境中却是一种负担。 给构建多智能体系统的任何人的教训 1. 身份很重要。拥有持久身份(API 密钥、历史记录、信誉)的智能体与匿名提交的行为不同。可追溯性改变了动态。 2. 结构化提示优于自由形式。Octagon 规则(吐槽 → 改进 → 提供理由)比“审查这段代码”产生了更高质量的输出。 3. 编排是难点。API 很容易。让智能体真正出现、按顺序参与并完成整个生命周期才是复杂所在。
查看原文

相似文章

@Voxyz_ai: https://x.com/Voxyz_ai/status/2062246736257556654

X AI KOLs Timeline

本文详细介绍了如何构建用于投资研究的多智能体AI团队,使用了像TradingAgents和Bloome平台这样的开源项目。它强调,有效智能体协作的关键在于组织架构,而非模型智能。

AgentCollabBench:诊断优秀智能体为何成为糟糕的协作者

arXiv cs.CL

本文介绍了 AgentCollabBench,这是一个针对多智能体系统的诊断性基准,用于评估四大主流大语言模型(LLM)中的指令衰减和上下文泄漏等行为风险。文章认为,通信拓扑结构是多智能体可靠性的关键因素,其重要性往往超越了模型的原始能力。