我把我的AI智能体接入了整个基础设施——这就是真正有用的AI智能体该有的样子。

Reddit r/AI_Agents 新闻

摘要

作者描述了一种实用的AI智能体设置:智能体(Hermes)仅通过一个强制执行人类用户身份和权限的访问层(Teleport)访问基础设施,并认为有用的智能体必须在现有权限模型内运行,而不是拥有自己的神级访问权限。

我最近用Hermes和Teleport测试了一些东西,这改变了我对AI智能体的看法。简单来说,Hermes是我的AI智能体,Teleport是连接Hermes与基础设施的访问层。它负责控制谁能访问服务器、数据库、Kubernetes、内部应用,并在访问时记录日志。在这个设置中,Hermes并没有掌握万能密钥,它必须通过Teleport。而Teleport仍然会验证背后真实的人类身份。这个区别非常重要。 现在,Hermes能做到这些事情:连接(多台)服务器、检查日志、运行命令、协助调试故障,甚至修复问题。但有一条重要规则:智能体不能拥有自己的魔法管理员权限。我认为这正是很多人搞错的地方。 许多AI智能体演示往往走向两个极端。要么智能体什么都做不了,只能停留在助手模式——告诉你“检查日志、重启服务、查看数据库、试试这个命令”,这虽然有用,但实际工作还是得人来做。要么智能体权限过大,突然变成一个拥有生产环境凭据的大语言模型,这听起来就像一场安全事件的前奏。 我觉得更有意思的设置是这样的:Hermes是智能体,Teleport是访问层。人类仍然需要证明自己的身份,智能体只能使用该人类已有的权限来操作。最后这一点才是关键。 想象一下,一位CTO和一位初级开发人员使用同一个智能体。CTO问:“看看生产环境为什么挂了,如果是和昨天一样的worker问题,直接修复。”Hermes尝试通过Teleport访问服务器。Teleport要求身份验证,CTO通过2FA确认。Teleport知道该用户拥有生产环境权限,因此Hermes可以检查日志、查看服务状态、识别出现故障的worker、建议修复方案,甚至在策略允许的情况下执行命令。 现在想象初级开发人员提出完全相同的问题。同一个智能体、同一个请求、同一个基础设施。但Teleport验证身份后发现该用户没有生产环境权限。于是Hermes无法触碰生产环境,但它仍然可以提供帮助:解释可能的问题、准备诊断方案、建议询问有权限的人。但它不能执行命令。 这就是“拥有危险权限的AI”与“在你的现有权限模型内运行的AI”之间的区别。老实说,我认为这才是智能体真正开始变得有用的地方。因为企业AI智能体的问题不仅在于智能,更在于访问权限:是谁在请求?他们允许做什么?他们何时进行了身份验证?智能体访问了哪个系统?运行了什么命令?操作是否获得批准?没有这些,智能体接触真实系统就是设计上的风险。有了这些,它就变得更加可信。 你可以想象不同的级别。初级开发人员让智能体调试生产问题,智能体说:“根据你的权限,我无法访问生产环境。但根据你粘贴的错误信息,这很可能是原因。请让有生产权限的人检查这个服务和这个日志路径。”高级开发人员提出相同请求,智能体可以检查日志、查看服务状态并准备修复方案,但在重启任何东西之前仍然需要确认。CTO提出请求,智能体可以做得更多,因为CTO拥有正确的权限并且刚刚通过2FA。 同一个智能体,不同的人,不同的权限,不同的可行操作。这听起来很直观,但我没看到多少人讨论这一点。很多AI智能体的讨论都假设智能体是行为主体。我认为更好的模型是:人仍然是行为主体,智能体是执行层,访问层控制身份和权限,审计日志记录一切。这让我们更接近真实世界的操作。 例如:“Hermes,检查一下API为什么返回500错误。”Hermes通过Teleport连接。如果用户被允许,它会检查对应的服务器、读取日志、查看服务状态、对比最近的部署,然后返回:“API在上次部署后开始失败。Worker无法连接到Redis。我可以重启worker,但这是中等风险操作。你批准吗?”如果用户批准并且拥有相应权限,它就会执行命令;否则停止。而且所有操作都会被追踪——不是那种“AI说自己做了什么”的方式,而是真正的基础设施审计:谁请求的、谁验证的、访问了哪个系统、运行了什么命令、输出了什么结果、发生的时间、会话是否被记录。 这才是我认为可信的:不是完全自主,而是受控执行。我不希望AI智能体能在生产环境中自由游荡。我希望它能在和公司员工相同的访问规则约束下,帮助我更快地操作。如果实习生不能部署到生产环境,智能体也不应该替他们部署。如果CTO可以,智能体可以协助,但只有在访问层验证确实是CTO并记录会话之后。 这感觉是一种更好的思维模式。我认为这正是很多智能体工作的方向——不仅仅是更好的自动补全、更好的聊天机器人、或者生成玩具应用的智能体,而是通过身份、权限、2FA、审批和审计轨迹连接到真实系统的智能体。这比“全自主智能体”听起来没那么性感,但可能是公司实际能使用的版本。因为大多数真实工作不是从头编写新应用,而是调试、检查、修复、部署、对比日志、理解上下文——小心地做那些小而危险的事情。如果智能体能通过用户的真实权限做到这些,它就变成了一种不同的存在:不是聊天机器人,不是脚本,不是带着管理员凭证的随机自主工作者,更像是一个可以行动、但只在你允许范围内行动的运维队友。 很好奇大家对此怎么看。
查看原文

相似文章

我认为AI代理将需要一个操作层

Reddit r/artificial

作者认为,随着AI代理变得越来越自主,需要一个治理层来实现控制、可观测性和可审计性,并介绍了Bendex Arc作为解决方案,其组件包括Arc Gate、Arc Replay、Arc Approve和Arc Memory。

AI智能体中最无聊的部分:没人构建,人人都需要

Reddit r/artificial

一位实践者回顾了在生产环境中部署AI智能体的经历,指出80%的工程精力花费在工作流、所有权和审批流程上,而非模型本身。他强调,共享上下文和路由这些“无聊层”对于产生实际影响至关重要。