72% 的团队已在生产环境使用代码智能体。但大多数团队无法说明，若深夜 11 点面临关键路径变更，该信任哪一个智能体及其原因。

Reddit r/AI_Agents 2026/05/11 13:30 新闻

ai-governance coding-agents production-ai agentic-ai risk-management developer-tooling ai-adoption

摘要

尽管 72% 的团队已将代码智能体投入生产，但大多数缺乏正式的治理机制或关于智能体可靠性的实证数据。本文主张应以会话级跟踪取代单纯的政策框架，以确保关键部署的可信度。

本周流传着一个关于治理差距的数据：72% 的企业已在生产环境部署智能体 AI，其中 60% 尚未建立正式治理机制。大多数讨论都将此视为政策层面的问题，关注的是组织结构图、风险框架和审批手续。这并非没有道理，但我认为这并不是应该切入的层次。比政策问题更底层的现实问题是：你的团队能否确切回答，针对你在运行的每一个具体代码智能体实例，它究竟表现出能可靠完成哪些任务？而不是泛泛而谈地知道“这个模型擅长什么”。而是指在当前环境下、基于现有代码库的这个特定实例，实际展示出能可靠处理什么，又有哪些是一直容易出错的？我接触过的多数团队都回答不上来。目前的路由决策往往取决于谁最近用过这个智能体、凭记忆觉得什么可行，或者偶尔参考某个基准排名——但那对你们特定场景下的表现毫无参考价值。这不是治理，这只是“有依据的猜测”。真正能支撑治理决策的证据——即会话轨迹、每个实例的行为数据、以及在推理质量、约束遵循和歧义处理等多维度上的评分——大多数团队并没有采集这些数据。你们只拿到了输出结果，会话记录却随之消失。结果就是，团队虽已在生产环境使用智能体，可一旦关键部署出错，却无法回溯还原智能体具体的每一步操作，也没法确认其行为是否与历史会话保持一致。对于正在使用智能体的团队，你们是如何应对这一点的？是在采集会话级数据，还是仅凭输出结果和直觉在运营？

查看原文

72% 的团队已在生产环境使用代码智能体。但大多数团队无法说明，若深夜 11 点面临关键路径变更，该信任哪一个智能体及其原因。

相似文章

在实际仓库中运行编码代理：代理写完代码后哪些环节会出问题？

我分析了 50 多个 AI 团队如何调试生产环境中的智能体故障，结果令人意外

在为十几位客户构建智能体团队后，我发现了真正赢得他们信任（并停止时刻盯着系统）的关键

我们在生产环境的 AI 智能体中加入了管控层——关于那些无人谈论的失效模式，我们学到了什么

"在什么情况下添加另一个代理实际上会损害您的系统？问这个是因为我的6代理流水线比旧的2代理流水线更慢且更不可靠"

提交意见反馈