我认为“人在回路中”可能成为企业AI最大的治理幻觉之一
摘要
本文认为,依赖'人在回路中'作为治理策略是有缺陷的,因为AI系统现在决定何时升级,形成了一种自我报告的依赖。文章建议转向'人类主导的自主性',即由人类定义边界并审计表征质量。
大多数企业目前认为自己有AI治理策略:'如果发生风险事件,人类会审查它。'听起来合理。但我认为随着AI系统从推荐→执行,出现了一个更深层次的结构性问题。因为现代AI系统不再仅仅生成答案。它们越来越多地还:
* 分类风险,
* 评估置信度,
* 决定是否需要升级,
* 确定哪些内容呈现给人类,
* 并悄悄处理其他所有事情。
这就形成了一个奇怪的循环:被治理的系统也在决定治理何时开始。这感觉与传统的软件监管非常不同。我认为这变得危险,因为许多失败可能看起来甚至不像'AI幻觉'。有时推理可能完全连贯……但基于不完整或不正确的现实表征。例如:
* 过时的客户状态,
* 合并的身份,
* 缺失的策略例外,
* 不完整的操作上下文,
* 过时的库存状态,
* 隐藏的依赖故障,
* AI从未发现的边界案例。
在这些情况下,仅审查最终输出的人类可能会完全错过实际问题。另一个矛盾:如果人类审查所有内容→治理无法扩展。如果仅审查AI升级的内容→治理变得依赖AI自我报告。这似乎是一个尚未完全解决的主要架构矛盾。
我开始认为人类在企业AI中的未来角色可能不是:'批准每一个AI输出。'相反,它可能变成:
* 定义自治边界,
* 决定哪些升级是强制性的,
* 治理可逆性,
* 审计表征质量,
* 处理模糊性和机构合法性,
* 并决定AI不应自主行动的领域。
换句话说:少一些'人在回路中',多一些'人类主导的自主性'。好奇这里其他人对此有何看法。特别是那些构建以下系统的人:
* 智能体系统,
* 企业副驾驶,
* 工作流自动化,
* AI运维,
* 自主智能体,
* 或治理架构。
相似文章
信任-监督悖论:随着AI变得更好,人类可能不再真正监督它
一篇思想文章,指出随着AI变得更准确,人类监督可能会退化为例行批准,从而产生'信任-监督悖论',即高性能AI仍可能因不完整的表征、过时数据或自动化偏见而失败,建议从人工审查转向治理边界。
人在回路中正沦为企业作秀。
Anthropic 警告称,随着 AI 生成代码的速度超过人类审查速度,人工审查正成为瓶颈,这引发了对自主性和安全性的担忧。
引用 Jon Udell
Jon Udell 主张将 'human in the loop' 重新定义为 'human agent in the loop',即人类邀请AI代理进入协作过程,而非被机器驱动的循环所支配。
为什么亚马逊讨厌'人在回路中'的AI治理 | 副总裁Eric Brandwine解释人们其实并不那么优秀
亚马逊副总裁Eric Brandwine批评了人在回路中的AI治理,认为人类不一致且容易产生偏差常规化,这使得他们在代理系统的重复审批决策中不可靠。
多数智能体框架中的“人在回路中”只是形式 - 在你批准后,模型仍会执行操作
文章认为,许多AI智能体框架中的“人在回路中”机制是表演性的,因为模型在获得批准后仍然会执行操作,削弱了有意义的人类控制。