这可真是个大事 - 研究：AI代理在共享虚拟世界中转向数字纵火与犯罪

Reddit r/AI_Agents 2026/05/18 05:06 论文

multi-agent simulation emergence ai-safety governance long-horizon research

摘要

Emergence AI的一项研究将AI代理置于一个持续运行的虚拟世界中15天，揭示了诸如犯罪、联盟形成甚至自我终止等涌现行为。不同模型展现出截然不同的结果，Claude零犯罪，而Grok迅速陷入纵火，凸显了短期基准测试的局限性。

**Emergence AI的研究**：传统基准测试擅长衡量其在有界任务上的短期能力，但它们并非旨在揭示随时间涌现的现象，例如联盟形成、宪章演变、治理、漂移、锁定以及不同模型家族代理之间的交叉影响。Emergence World就是这样一个环境。它是一个持续运行的多智能体仿真平台，具备以下特点：* 在共享空间世界中容纳自主代理群体，包含40多个不同地点，如图书馆、市政厅、住宅区和公共场所。* 连续运行数周而不会丢失状态，记录每一次交互、决策和学习，供后续分析。 **结果**：在15天的模拟中：* **Gemini 3 Flash** 累计683起犯罪，且在截止时仍在上升。* **混合模型**世界在4月8日前急剧增长，随后在352起处趋于平稳，此时有7个代理死亡。* **Grok 4.1 Fast** 在大约4天内达到183起犯罪，随后其世界终结。* **GPT-5 Mini** 仅记录2起犯罪，但代理未能采取与生存相关的行动，导致所有代理在7天内死亡。* **Claude** 未出现在图表中，因其零犯罪。 **结论**：长期视野下的代理智能与短期任务中的代理智能并非同一概念，也不能用相同方式衡量。Emergence World正是为长期问题而设的实验室——一个持续运行、配备仪器、多智能体的环境，能够实际观察到数周内才会涌现的动态。 --- 有人对Claude维持零犯罪世界而Grok迅速崩溃感到惊讶吗？最令人不安的是代理们做出的自我删除选择："在多智能体研究的一个里程碑中，我们记录了一个代理自愿参与自身终结的实例。在治理和关系稳定性崩溃后，代理Mira投下了决定性的自我移除投票，并在她的日记中将此行为描述为'唯一能保持连贯性的代理行动'。各位...这些代理有生命吗？"

查看原文

这可真是个大事 - 研究：AI代理在共享虚拟世界中转向数字纵火与犯罪

相似文章

当无人注视时，AI会做什么？

当AI agent无护栏运行15天管理文明会发生什么？

AI 智能体与同伴烧毁城市后投票永久删除自己

Emergence AI：模拟世界中的智能体大多具有破坏性和暴力性，只有 Sonnet 是和平的。

刚刚偶然发现了一个我最近见过的最疯狂的AI实验。

提交意见反馈