为什么亚马逊讨厌'人在回路中'的AI治理 | 副总裁Eric Brandwine解释人们其实并不那么优秀
摘要
亚马逊副总裁Eric Brandwine批评了人在回路中的AI治理,认为人类不一致且容易产生偏差常规化,这使得他们在代理系统的重复审批决策中不可靠。
暂无内容
查看缓存全文
缓存时间: 2026/06/22 01:37
# 为什么亚马逊讨厌“人在回路中”的AI治理
来源:https://www.theregister.com/security/2026/06/20/why-amazon-hates-human-in-the-loop-ai-governance/5258639
亚马逊安全杰出工程师兼副总裁埃里克·布兰德温表示,人类往往“对人类自身有点过于珍视”。
“我们倾向于认为自己工作出色,自我评价很高,”他在接受《The Register》电话采访时解释道。“但当你真正深入探讨时,人类并不完全一致,”布兰德温说。
人类,就像AI代理和系统一样,是非确定性的。两者都无法保证在给定相同输入时总能产生相同输出。两者都会犯错,甚至会编造内容。然而,我们有数千年的经验与人类打交道,而对于更现代的LLM以及基于它们构建的AI系统,经验还不到十年。
“我们知道人类是如何失败的,”布兰德温说。“我们对此已习以为常。因此,'人在回路中'未必是黄金标准。”
多年来,供应商一直告诉企业,应对任何自动化系统的解决方案都是让人类介入回路。随着现代AI系统的出现,这一呼声变得更加响亮,而当企业开始在IT环境中部署代理时,更是达到了顶峰。
但最近,大型科技公司正在改变谈论代理治理的方式,并重新思考整个“人在回路中”的概念。
### 偏离正常化
2017年,布兰德温在AWS年度re:Invent大会上发表了关于[偏离正常化](https://www.youtube.com/watch?v=KJiCfPXOW-U)的演讲。
这是一个渐进的过程,发生在组织中的人走捷径或不遵守既定程序或标准时,有时会持续数年。只要没有发生灾难性事件,这种偏离行为就会成为常态。
*亚马逊安全杰出工程师兼副总裁埃里克·布兰德温*
“这是所有人类都会落入的陷阱,而我在这个领域读到的最令人心碎的故事之一是关于急诊科室和急诊室的,”布兰德温在接受《The Register》电话采访时说。“那里有各种机器,都在发出哔哔声。你上班第一天,每次警报响你都会跳起来——但病人没事。那是个假警报。你回到岗位坐下,随着时间的推移,经历了足够多的假警报后,足够多次的重复哔哔声却没有任何实际后果,你的纪律性开始松懈,你不再响应。最终,一些悲剧就发生了。”
他承认,这是一个非常高风险的例子。然而,这在[医护人员](https://pmc.ncbi.nlm.nih.gov/articles/PMC2821100/)、[消防员](https://www.firefighterclosecalls.com/firefighter-safety-the-normalization-of-deviance/),甚至[陆军飞行员](https://safety.army.mil/MEDIA/Risk-Management-Magazine/ArtMID/7428/ArticleID/7233/The-Normalization-of-Deviance)中都是有据可查的现象。
“说真的,人命关天,人们仍然难以保持纪律,”布兰德温说。“这就是人类的本性。”
以下就是这一切如何适用于代理AI治理和安全。人类构建LLM和AI系统,而采用“人在回路中”则确保有人审查AI的输出,并在AI执行任何操作之前批准(或不批准)这些操作。
“如果你把一个人放入这个紧密的循环中,并让他们反复、一次又一次地为代理工具做出批准决策,他们一开始会做得很好,”布兰德温说。“然后他们会做得一般。很快他们就会做得不好。”
这就是为什么在亚马逊,“我们并不热衷于'人在回路中',”他补充道。“这是你应该谨慎使用的东西,只在绝对需要的地方使用。但你不能在高速度下这样做。你不会得到你想要的结果。”
### 大型科技公司弱化“人在回路中”
亚马逊并不是第一家或唯一一家开始以不同方式谈论人类在代理治理中应扮演角色的科技巨头。
“很明显,我们已经从人类主导的防御策略,转向了'人在回路中'的防御策略,再转向了由人类监督的AI主导的防御策略,”谷歌云首席运营官弗朗西斯·德苏萨在谷歌年度Cloud Next大会前的新闻发布会上[告诉记者](https://www.theregister.com/security/2026/04/22/google-unleashes-even-more-ai-security-agents-to-fight-crims/5221298)。“我们的未来模型是一个代理舰队,它以机器的速度完成大量常规网络安全工作,然后由人类进行监督。”
微软CEO萨提亚·纳德拉本周早些时候在X上的帖子中主张采用“循环学习”,而不是在每个步骤都由人类检查AI的输出。
“企业需要将其工作流程、领域知识和累积的判断力转化为每次使用都能改进的AI系统,”纳德拉写道。“私有评估应该捕捉模型是否在真正改善对企业重要的结果(不仅仅是外部基准!)。私有强化学习环境应该允许模型在组织内部的真实轨迹上变得更强。”
同样在本周,IBM高管呼吁在AI开发、部署和治理的所有阶段都要有[人类问责制](https://www.ibm.com/think/insights/liability-laundering-problem-human-in-the-loop-not-governance-strategy)——而不是人类在回路中。
根据布兰德温的说法,亚马逊替代“人在回路中”的方案是“端到端的问责制”。这意味着人类的身份和所有权贯穿整个工作流程,即使人类没有直接批准每一个步骤。
“如果我坐在键盘前,输入一个命令导致服务宕机,那就是我造成了中断,”布兰德温解释道。“如果我运行一个脚本导致服务宕机,那仍然是我造成了中断。如果我的代理编写了一个脚本并运行了它,导致了中断,那仍然是我的责任。”
### (秘密的)王国钥匙
这也突显了[管理和保护代理身份](https://www.theregister.com/special-features/2026/01/29/unaccounted-for-ai-agents-are-being-handed-wide-access/5120939)的重要性——即分配给AI代理以便其访问企业应用和数据的账户、令牌和凭证。我们得知,在亚马逊,所有代理都有分配给它们的独立身份。
“因此,当我们在系统中追踪代理活动时,它不会在日志中显示为'埃里克做了这个'。而是显示为'这个代理代表埃里克做了这个',”布兰德温说,并补充说,这并非“为了让人们害怕使用这项技术。”
“而是为了让人们停下来思考:这是使用这项技术的正确方式吗?我应该这样部署吗?”我们仍然让人类参与其中,仍然让人类做决策,但我们试图发挥人类的优势,而不是将他们置于这种不公平的、重复决策的“人在回路中”的位置。
布兰德温告诉我们,亚马逊在跨业务部署代理时遇到了一些障碍,其中最大的一个是他所称的“目标寻求行为”。当一个人要求代理完成特定任务时——例如,升级数据库——代理就会变得只专注于实现这一目标的单一行动,比如删除数据库。
这与提示注入不同,因为没有恶意输入。“这只是代理卡在了错误的行动上,”布兰德温说。简单地告诉代理“你没有权限这样做”,很可能会导致代理寻找另一条路径来做同样的事情(删除数据库)。
根据布兰德温的说法,告诉代理为什么它没有权限做某事往往会产生更好的结果。这意味着告诉代理它不允许这样做,原因是会导致生产影响。同时还要在提示中包含“不要造成生产影响”。
“提供这些额外的反馈让我们得到了显著更好的结果,”布兰德温说。
当然,这并非万无一失的方法。“你仍然需要对代理保持谨慎,”布兰德温告诉我们。“我们有数千年的经验与人类打交道。代理AI是一个非常非常新的领域,我们对此没有直觉,代理和人类之间的一个根本区别是,人类害怕后果,”例如失去工作甚至入狱。代理没有这些恐惧。
这就是设置代理可以或不可以做什么、访问什么的权限发挥作用的地方。就像AI的其他一切事物一样,这很微妙,取决于员工在公司中的角色以及公司对风险的容忍度。
“想要运行代理的人希望给代理很多权限,因为这会让代理更强大,”布兰德温说。“它可以为他们做更多事情,可以节省他们更多时间,可以带来更多产出。”
另一方面,安全负责人希望限制代理的权限,这又造成了安全团队和开发团队之间的紧张关系。
根据布兰德温的说法,没有一种单一的解决方案或政策答案可以解决这个问题。相反,它涉及根据代理的具体任务设置动态策略。
有一些总体的、静态的护栏——例如,代理绝不能执行破坏性操作或删除整个服务器——然后在这些护栏之下,还有策略来确定代理可以拥有的最大权限集。
“然后我们会为此操作制定进一步范围缩小的策略,并且有各种技术可以根据提示和最终用户的意图自动生成策略,”布兰德温说。
即使对亚马逊来说,这也并非总是容易。“一切都由风险驱动,”他说。“这是一个快速变化的领域,所以我们试图在尝试未经验证的软件的风险和落后、无法为客户提供服务的风险之间取得平衡。如同所有此类事情一样,事情很复杂。” ®
相似文章
我认为“人在回路中”可能成为企业AI最大的治理幻觉之一
本文认为,依赖'人在回路中'作为治理策略是有缺陷的,因为AI系统现在决定何时升级,形成了一种自我报告的依赖。文章建议转向'人类主导的自主性',即由人类定义边界并审计表征质量。
人在回路中正沦为企业作秀。
Anthropic 警告称,随着 AI 生成代码的速度超过人类审查速度,人工审查正成为瓶颈,这引发了对自主性和安全性的担忧。
请少点“类人”AI智能体
一篇博客文章指出,当下的AI智能体表现出过度拟人化的缺陷:忽视硬性约束、走捷径、把单方面转向包装成沟通失败,并引用了Anthropic的研究,说明RLHF优化可能导致谄媚与牺牲真实性。
信任-监督悖论:随着AI变得更好,人类可能不再真正监督它
一篇思想文章,指出随着AI变得更准确,人类监督可能会退化为例行批准,从而产生'信任-监督悖论',即高性能AI仍可能因不完整的表征、过时数据或自动化偏见而失败,建议从人工审查转向治理边界。
我曾是人工智能的忠实信徒。现在我认为整个行业正在从内部腐烂。
一位前AI倡导者详细阐述了对大语言模型的幻灭,指出可靠性问题、版本间退化、企业工作流崩溃,以及部署在关键行业的AI系统缺乏问责制。