你的流程本应不断优化，但几乎没有哪个做到了。以下是我们尝试闭环时学到的经验。

Reddit r/AI_Agents 2026/05/16 14:55 新闻

ai-agents operations best-practices security audit-logging permissions approval-gates

摘要

经过8个月将AI代理部署在实际运维任务中，作者分享了五个未曾预料的工程挑战：按能力而非按工具的权限管理、通过连接器代理隔离凭证、持久的审批关卡、硬性预算上限、以及进程外的审计日志。

过去的8个月里，我一直在尝试将AI代理应用于实际运维工作：供应商审核、后续跟进、周报、内部工具请求。最大的意外是：模型+提示+工具调用这部分竟然是最简单的80%。真正棘手的20%是让任何理性的运维人员放心地让它在无人监督下运行。以下是我们最终构建的五项功能，起初我并未预料到会有这样的需求。很好奇其他人在这个领域是怎么做的。1. **按能力进行权限管理，而非按工具。** 直觉是“这个代理可以使用工具X”，但实际上，工具X有40种功能。你需要在能力级别上设置允许/拒绝/询问——shell、网络、git push、文件写入、进程生成、凭证读取——然后再在该能力内按工具进行范围限定。2. **连接器代理模式。** 凭证绝不能进入模型上下文。如果进入了，它们就会出现在日志、提示甚至生成输出中。解决方案：工具永远不看到原始机密。3. **审核关卡作为运行时基元，而非UI功能。** “暂停并等待人类操作”是最被低估的代理功能，几乎没人谈论。它必须持久保存运行状态，序列化工作内存，等待，然后在人类操作时干净地恢复。4. **预算上限作为硬性限制：** 每次运行、每天、每个工作空间。三种模式：警告/需审批/硬失败。我观察过的每个在生产中运行代理的团队都遇到过成本事故。5. **代理无法通过正常操作写入的审计日志。** 大多数代理框架的日志驻留在代理自身的进程中。当代理崩溃时，日志也随之丢失。应将日志放入一个代理无法通过正常操作触及的系统中。这份清单中还有什么遗漏的？你在自己的代理部署中又看到了哪些问题？

查看原文

你的流程本应不断优化，但几乎没有哪个做到了。以下是我们尝试闭环时学到的经验。

相似文章

我们是否缺少一个面向AI智能体的运维层？

为什么AI Agent原型感觉很棒，但生产部署却变成一团糟

我们的大部分“智能体”问题实际上是工作流/状态问题

"在什么情况下添加另一个代理实际上会损害您的系统？问这个是因为我的6代理流水线比旧的2代理流水线更慢且更不可靠"

AI智能体中最无聊的部分：没人构建，人人都需要

提交意见反馈