智能体系统是否总是遇到相同的四个瓶颈?

Reddit r/AI_Agents 新闻

摘要

作者指出了AI智能体系统在实际应用中的四个关键瓶颈:物理限制、对抗压力、制度权威和关系信任,并询问其他人认为智能体工作流会在哪里失败。

我一直在试图总结我在智能体工作流中反复观察到的模式。目前很多讨论仍集中在模型能力上:更好的推理、更长的上下文、更好的工具使用、更好的规划。这些都很重要。但是一旦智能体离开演示环境,触及真实工作流,瓶颈往往就转移到别处了。我大致将其分为四个层面: 物理现实 结果必须经得起现实世界的考验。一个计划仍然要符合时间、材料、延迟、供应链、生物学、基础设施、能源、预算以及工作流最终会遇到的任何其他约束。智能体可以加速提案的生成,但提案仍然要在聊天窗口之外能够运作。 对抗现实 一旦系统影响到了利益格局,就会有人针对它进行适应或对抗。这在欺诈、垃圾信息、网络安全、招聘、采购、公共福利、内容审核以及其他任何输出会改变谁得到什么的场景中都会出现。智能体可以帮助检测或应对对手,但它们也会创造新的可被利用的漏洞。 制度权威 某些行动需要获得特定的决策授权。智能体可以起草合同、分类申请、准备审计、推荐付款或总结证据。但随后工作流会遇到另一个问题:谁能对此采取行动?谁来签字?谁负责?哪项政策规定这个决定有效?这时,“自动化”往往又变回了审批、审计追踪、权限和问责。 关系信任 即使系统能够正常工作,人们仍然需要信任结果、过程和彼此。信任比推理更慢。它通过反复使用、可理解的失败、清晰的权威以及错误后的修复来建立。你可以加速相关工作,但无法完全并行化人们学习一个系统是否值得信赖的过程。 我很好奇这与其他人的观察是否一致。在实际应用中,当智能体工作流失败或停滞时,它们通常首先碰到哪个层面? - 运行时/物理限制 - 对抗压力 - 权威、责任或合规 - 用户、团队和系统之间的信任 - 还是其他完全不同的东西?
查看原文

相似文章