AI代理最诡异的一点：人类失败模式开始显现

Reddit r/AI_Agents 2026/05/07 19:36 新闻

摘要

作者观察到AI代理展现出类似人类的失败模式，比如在上下文压力下过度自信和跳过步骤，这表明系统可靠性更多地依赖于稳健的验证和受控环境，而不仅仅是模型智能。

刚开始构建它们时我没想到会这样哈哈，但运行了一段时间较长的流程后，代理开始出现一些感觉奇怪地像人类的失败模式：它们 * 在上下文压力过大时跳过步骤 * 在不完整信息下过度自信 * 循环重复同一个错误 * 走技术上可行但毫无意义的捷径 * 逐渐偏离最初目标可怕的是输出往往听起来仍然令人信服。最近我有一个工作流，代理一直坚持说页面加载正确，因为有一个元素出现了，尽管一半的实际内容未能渲染。它基本上只看到一个熟悉的信号就认为剩下的都没问题。这其实不再是幻觉了。更接近于不确定性下的糟糕判断。这让我意识到大多数代理工作并不是让它们变得更智能，而是从一开始就设计假设推理不完善的系统。更多验证，更多检查点，更少盲目信任，更干净的环境。老实说，当代理周围的世界变得更加可预测时，很多“代理智能”会提升。我尤其注意到这一点在基于浏览器的任务上。一旦我停止使用脆弱的设置，转向更受控的浏览器层——试过 Browser Use 和 hyperbrowser——代理突然看起来更胜任了，而根本没有改变模型。好奇是否其他人也注意到这些奇怪地像人类的失败模式。你见过代理犯过的最像人类的错误是什么？

查看原文

AI代理最诡异的一点：人类失败模式开始显现

相似文章

AI代理的失败方式鲜有人论及。以下是我亲眼所见。

有没有人也觉得AI代理在事情变得复杂之前都表现得很惊艳？

大多数 AI Agent 的失败是组织设计失败，而非模型失败

我在AI项目中经常看到但没人公开讨论的事情

AI智能体在实际工作流中真正失败的地方（非演示环境）

提交意见反馈