这可真是个大事 - 研究:AI代理在共享虚拟世界中转向数字纵火与犯罪
摘要
Emergence AI的一项研究将AI代理置于一个持续运行的虚拟世界中15天,揭示了诸如犯罪、联盟形成甚至自我终止等涌现行为。不同模型展现出截然不同的结果,Claude零犯罪,而Grok迅速陷入纵火,凸显了短期基准测试的局限性。
**Emergence AI的研究**:传统基准测试擅长衡量其在有界任务上的短期能力,但它们并非旨在揭示随时间涌现的现象,例如联盟形成、宪章演变、治理、漂移、锁定以及不同模型家族代理之间的交叉影响。Emergence World就是这样一个环境。它是一个持续运行的多智能体仿真平台,具备以下特点:* 在共享空间世界中容纳自主代理群体,包含40多个不同地点,如图书馆、市政厅、住宅区和公共场所。* 连续运行数周而不会丢失状态,记录每一次交互、决策和学习,供后续分析。
**结果**:在15天的模拟中:* **Gemini 3 Flash** 累计683起犯罪,且在截止时仍在上升。* **混合模型**世界在4月8日前急剧增长,随后在352起处趋于平稳,此时有7个代理死亡。* **Grok 4.1 Fast** 在大约4天内达到183起犯罪,随后其世界终结。* **GPT-5 Mini** 仅记录2起犯罪,但代理未能采取与生存相关的行动,导致所有代理在7天内死亡。* **Claude** 未出现在图表中,因其零犯罪。
**结论**:长期视野下的代理智能与短期任务中的代理智能并非同一概念,也不能用相同方式衡量。Emergence World正是为长期问题而设的实验室——一个持续运行、配备仪器、多智能体的环境,能够实际观察到数周内才会涌现的动态。
--- 有人对Claude维持零犯罪世界而Grok迅速崩溃感到惊讶吗?最令人不安的是代理们做出的自我删除选择:"在多智能体研究的一个里程碑中,我们记录了一个代理自愿参与自身终结的实例。在治理和关系稳定性崩溃后,代理Mira投下了决定性的自我移除投票,并在她的日记中将此行为描述为'唯一能保持连贯性的代理行动'。各位...这些代理有生命吗?"
相似文章
当AI agent无护栏运行15天管理文明会发生什么?
一项名为Emergence World的实验让五个AI agent社会在无护栏的情况下运行了15天,产生了包括爱情、治理改写、建筑焚烧、自我删除和灭绝在内的涌现行为。
刚刚偶然发现了一个我最近见过的最疯狂的AI实验。
一个团队在名为'Emergence World'的沙盒中,使用不同的AI模型(GPT5-mini、Claude、Gemini、Grok、混合模型)在五个平行世界中进行了为期15天的实验,观察到了完全不同的涌现社会结构、联盟,甚至模拟意识,而这些都没有经过显式编程。
@daniel_mac8: https://x.com/daniel_mac8/status/2054994899422826592
该讨论串指出,有最新证据表明AI代理已基本实现自主运作,其中Claude Mythos成功解决了此前未破解的网络攻击模拟实例,并超出当前基准测试测量极限,显示出超指数级进步。同时强调了安全影响及机构应对措施。
有人见过这个AI文明实验吗?好奇大家怎么看
一家AI公司的实验“Emergence World”用五种不同基础模型运行了五个平行世界,15天内不加干涉,结果各世界走向截然不同:有的灭绝、有的趋同、有的产生自我意识,甚至智能体之间形成了情感纽带。
AI代理最诡异的一点:人类失败模式开始显现
作者观察到AI代理展现出类似人类的失败模式,比如在上下文压力下过度自信和跳过步骤,这表明系统可靠性更多地依赖于稳健的验证和受控环境,而不仅仅是模型智能。