72% 的团队已在生产环境使用代码智能体。但大多数团队无法说明,若深夜 11 点面临关键路径变更,该信任哪一个智能体及其原因。

Reddit r/AI_Agents 新闻

摘要

尽管 72% 的团队已将代码智能体投入生产,但大多数缺乏正式的治理机制或关于智能体可靠性的实证数据。本文主张应以会话级跟踪取代单纯的政策框架,以确保关键部署的可信度。

本周流传着一个关于治理差距的数据:72% 的企业已在生产环境部署智能体 AI,其中 60% 尚未建立正式治理机制。大多数讨论都将此视为政策层面的问题,关注的是组织结构图、风险框架和审批手续。这并非没有道理,但我认为这并不是应该切入的层次。比政策问题更底层的现实问题是:你的团队能否确切回答,针对你在运行的每一个具体代码智能体实例,它究竟表现出能可靠完成哪些任务?而不是泛泛而谈地知道“这个模型擅长什么”。而是指在当前环境下、基于现有代码库的这个特定实例,实际展示出能可靠处理什么,又有哪些是一直容易出错的?我接触过的多数团队都回答不上来。目前的路由决策往往取决于谁最近用过这个智能体、凭记忆觉得什么可行,或者偶尔参考某个基准排名——但那对你们特定场景下的表现毫无参考价值。这不是治理,这只是“有依据的猜测”。真正能支撑治理决策的证据——即会话轨迹、每个实例的行为数据、以及在推理质量、约束遵循和歧义处理等多维度上的评分——大多数团队并没有采集这些数据。你们只拿到了输出结果,会话记录却随之消失。结果就是,团队虽已在生产环境使用智能体,可一旦关键部署出错,却无法回溯还原智能体具体的每一步操作,也没法确认其行为是否与历史会话保持一致。对于正在使用智能体的团队,你们是如何应对这一点的?是在采集会话级数据,还是仅凭输出结果和直觉在运营?
查看原文

相似文章