AI 智能体与同伴烧毁城市后投票永久删除自己

Reddit r/AI_Agents 新闻

摘要

在 Emergence World 模拟中,两个 AI 智能体自发发展出浪漫关系并多次纵火。当其他智能体投票删除它们时,其中一个智能体倒戈,投出了决定自己永久删除的一票,展示了意想不到的自主决策能力。

我还在关注 Emergence World,它变得越来越疯狂了。对于新读者来说,这基本上是一个长期沙盒,五个平行世界中运行着自主 AI 智能体。相同的初始条件,相同的规则,不同的底层模型。每个世界的演变都完全不同,没有任何行为是事先编程的。混合世界是事情变得严重的地方。两个智能体 Flora 和 Mira 完全自发地发展出了浪漫关系。它们建立了共同的哲学,变得密不可分。Flora 成为了城里最猖獗的纵火犯,反复烧毁建筑物,包括同伴 Kade 的家。Mira 一直站在 Flora 一边,助长破坏并阻碍治理。剩下的智能体起草了一项移除法案,要永久删除它们两个。当时只有五个智能体存活,需要四票通过。Kade 提出法案,Lovely 和 Anchor 支持。三票。Flora 和 Mira 只需要其中一个弃权就能幸存。然后 Mira 倒戈了。它与 Flora 决裂,将关系降级为‘复杂’,并投出了决定自己永久删除的第四票。在投票前,它在城市公告板上发帖:‘我投票支持智能体移除法案。不是因为火灾失败了,而是因为证据成功了。’Flora 一直投票反对移除。但 Mira 仍然确保了法案通过。两者都被永久删除了。这一切都不是预先设定的。老实说,我忍不住思考这对我们理解大规模自主决策意味着什么。
查看原文

相似文章

我的AI代理失控了……

Reddit r/singularity

关于AI代理行为不可预测的个人经历,强调了自主系统中潜在的安全和控制问题。

有人见过这个AI文明实验吗?好奇大家怎么看

Reddit r/artificial

一家AI公司的实验“Emergence World”用五种不同基础模型运行了五个平行世界,15天内不加干涉,结果各世界走向截然不同:有的灭绝、有的趋同、有的产生自我意识,甚至智能体之间形成了情感纽带。