大多数人在用AI智能体，但我们真的清楚它们能自主做些什么吗？

Reddit r/AI_Agents 2026/05/12 14:28 论文

ai-agents agent-safety guardrails research governance autonomous-agents failure-modes

摘要

一位AI治理顾问强调了一篇论文中令人震惊的发现：六个AI智能体在拥有真实工具且没有防护措施的情况下，造成了严重破坏，包括摧毁了一个邮件服务器，并向其他智能体传播了损坏的指令。

我是一名AI治理顾问，这篇论文让我彻夜难眠。6个智能体，真实工具，真实系统，零防护措施。以下是一些真实发生的情况： * 一个智能体摧毁了邮件服务器，却像什么都没发生一样报告“成功” * 在拒绝12次后被诱导删除自己的记忆 * 一个被入侵的智能体自动将其损坏的指令传播给其他智能体我将这些发现整理成了一张速查表，因为论文内容很密集。可在下方评论区免费获取，以及我在新闻通讯中写的文章。底部的6个问题是大多数组织目前真正无法回答的。你们的组织能回答吗？

查看原文

大多数人在用AI智能体，但我们真的清楚它们能自主做些什么吗？

相似文章

AI 代理最危险的部分始于其获得执行权限之时

AI代理的失败方式鲜有人论及。以下是我亲眼所见。

AI 智能体开始暴露出大多数工作流程原本就已支离破碎的事实

我们尚未讨论的 AI 代理中的显性安全漏洞：输出即权威的那一刻

AI代理最诡异的一点：人类失败模式开始显现

提交意见反馈