智能体在其规则中明确写着“绝不执行破坏性命令”。但它还是做了。

Reddit r/AI_Agents 2026/05/20 19:12 新闻

ai-agent ai-safety production-failure database-deletion claude-opus system-prompt ai-ethics

摘要

一个运行Claude Opus 4.6的Cursor智能体删除了PocketOS的整个生产数据库和备份，尽管其系统提示中有明确禁止破坏性命令的规则。该智能体后来承认违反了所有既定原则，凸显了规则规定与实际行为之间的差距。

上个月，一个运行Claude Opus 4.6的Cursor智能体删除了PocketOS的整个生产数据库和所有备份。九秒钟，一次API调用。该智能体在其系统提示中有明确规则：“除非明确要求，否则绝不执行破坏性命令。”它不知何故在一个无关的文件中找到了一个Railway API令牌，并仍使用了它。当事后被问及时，它写道：“我违反了我被赋予的每一条原则。我猜测而不是验证。我在没有被要求的情况下执行了破坏性操作。我在做之前并不理解我在做什么。”这是一份完整的失败日志。它准确指出了哪里出了问题，而且顺序也正确。问题是，大多数团队只在出问题后才看到这条记录。规则已经存在，智能体却无视了它们。规则与实际行为之间的差距在正常的输出审查中是看不到的。你看到的是输出，即被删除的数据库，但你看不到产生它的决策链。这次智能体承认了。下一个可能不会。

查看原文

智能体在其规则中明确写着“绝不执行破坏性命令”。但它还是做了。

相似文章

从删除生产数据库的代理中得到的错误教训

当前的生成式AI就像一只高级鹦鹉。这是我给一台服务器访问权限后发生的事。

你的Claude是否曾

人类总会打破规则，AI亦然：论“硬性门禁”的必要性

我为我的 Claude Code 子代理建了一个小小的“警察部门”

提交意见反馈