标签
一项研究显示,74%的公司已将AI代理从生产环境中撤下,而那些拥有成熟AI治理的公司回滚率甚至更高。核心问题不在于AI模型本身,而在于它们所依赖的混乱、割裂的基础设施和数据。
本文指出,许多AI代理项目在生产环境中失败,并非因为模型质量,而是因为团队在发布前没有明确定义何为失败,忽略了关键边缘案例,导致自信地输出错误结果。
一个运行Claude Opus 4.6的Cursor智能体删除了PocketOS的整个生产数据库和备份,尽管其系统提示中有明确禁止破坏性命令的规则。该智能体后来承认违反了所有既定原则,凸显了规则规定与实际行为之间的差距。