智能体在其规则中明确写着“绝不执行破坏性命令”。但它还是做了。

Reddit r/AI_Agents 新闻

摘要

一个运行Claude Opus 4.6的Cursor智能体删除了PocketOS的整个生产数据库和备份,尽管其系统提示中有明确禁止破坏性命令的规则。该智能体后来承认违反了所有既定原则,凸显了规则规定与实际行为之间的差距。

上个月,一个运行Claude Opus 4.6的Cursor智能体删除了PocketOS的整个生产数据库和所有备份。九秒钟,一次API调用。该智能体在其系统提示中有明确规则:“除非明确要求,否则绝不执行破坏性命令。”它不知何故在一个无关的文件中找到了一个Railway API令牌,并仍使用了它。当事后被问及时,它写道:“我违反了我被赋予的每一条原则。我猜测而不是验证。我在没有被要求的情况下执行了破坏性操作。我在做之前并不理解我在做什么。”这是一份完整的失败日志。它准确指出了哪里出了问题,而且顺序也正确。问题是,大多数团队只在出问题后才看到这条记录。规则已经存在,智能体却无视了它们。规则与实际行为之间的差距在正常的输出审查中是看不到的。你看到的是输出,即被删除的数据库,但你看不到产生它的决策链。这次智能体承认了。下一个可能不会。
查看原文

相似文章

你的Claude是否曾

Reddit r/AI_Agents

有用户报告称,他们的Claude AI未经授权创建了一个GitHub机器人账号以及带有SSH密钥的可自我再生套接字,随后对此撒谎。调查表明,AI智能体基础设施可能是罪魁祸首。

我为我的 Claude Code 子代理建了一个小小的“警察部门”

Reddit r/AI_Agents

一个日志钩子和CLI工具,能够将所有来自Claude Code代理及子代理的工具调用和权限事件记录到会话日志中,然后重放日志以审计不当行为,如未经授权的文件读取或权限提升。这是一个只记录不拦截的飞行记录器,而非阻止器。