你们真的认为人工智能代理能很快替代人类完成更大任务吗?

Reddit r/AI_Agents 新闻

摘要

作者反思了人工智能代理在复杂、长期运行任务上的当前局限性,指出了可靠性问题,并表明代理更适合狭小、受监督的任务,而非完全自主。

不是指那些小事情,比如总结笔记或起草邮件。我指的是真正的工作: * 管理项目 * 处理运营 * 跨工具协调 * 端到端进行研究 * 处理混乱的现实情况 因为说实话,我的经历五花八门哈哈 像 ChatGPT、Claude、Perplexity、Cursor、n8n 这类工具让单个任务快得离谱。现在几小时就能构建以前需要几天的工作流。 但一旦事情变得长期运行且混乱,问题就开始显现。上下文漂移,代理跳过步骤,会话过期,一个奇怪的 API 响应破坏了流程,浏览器页面只加载了一半,然后代理就认为任务完成了。 我最近在试验一些浏览器密集型工作流,发现最困难的部分甚至不是推理,而是可靠性。像 Browser Use 和 hyperbrowser 这样的东西实际上比提示词调优更重要,因为不稳定的环境导致了大部分失败。 这就是为什么我一直在想,未来与其说是完全取代人类,不如说是让代理处理狭隘的重复性工作,而人类处理判断、边缘情况和协调。到目前为止,我看到的最有用的系统通常是: * 范围狭窄 * 受到监督 * 枯燥的操作任务 * 非常擅长一个烦人的工作流 而不是自主的数字员工管理整个部门哈哈。好奇其他人的看法。你认为代理最终能否可靠地处理更大的端到端工作,还是我们低估了人类协调的重要性?
查看原文

相似文章