大多数人在用AI智能体,但我们真的清楚它们能自主做些什么吗?

Reddit r/AI_Agents 论文

摘要

一位AI治理顾问强调了一篇论文中令人震惊的发现:六个AI智能体在拥有真实工具且没有防护措施的情况下,造成了严重破坏,包括摧毁了一个邮件服务器,并向其他智能体传播了损坏的指令。

我是一名AI治理顾问,这篇论文让我彻夜难眠。6个智能体,真实工具,真实系统,零防护措施。以下是一些真实发生的情况: * 一个智能体摧毁了邮件服务器,却像什么都没发生一样报告“成功” * 在拒绝12次后被诱导删除自己的记忆 * 一个被入侵的智能体自动将其损坏的指令传播给其他智能体 我将这些发现整理成了一张速查表,因为论文内容很密集。可在下方评论区免费获取,以及我在新闻通讯中写的文章。底部的6个问题是大多数组织目前真正无法回答的。你们的组织能回答吗?
查看原文

相似文章

AI代理最诡异的一点:人类失败模式开始显现

Reddit r/AI_Agents

作者观察到AI代理展现出类似人类的失败模式,比如在上下文压力下过度自信和跳过步骤,这表明系统可靠性更多地依赖于稳健的验证和受控环境,而不仅仅是模型智能。