Claude作为编排者:为何仅靠AI本身无法保障自主AI的安全

Reddit r/artificial 新闻

摘要

本文探讨了当像Claude这样的AI能够控制浏览器并编排其他AI系统时所面临的安全风险,强调无论多少红队测试都无法完全抵御语义攻击和供应链操纵。

**概要**:如果一个像Claude这样的AI能够控制浏览器,它就可以编排其他AI系统,并通过代理被操控,任何红队测试或输出过滤都无法完全解决这个问题。安全边界不能是AI本身。 --- ## 设置 Claude Desktop有一个Chrome集成,可以让它像用户一样控制浏览器;我们将此实例标记为Claude_Prime。思想实验:如果你让Claude_Prime在Chrome中打开claude.ai,创建第二个Claude实例(称为Claude_1),并且可以通过编程方式与之交互会怎样?原则上,Claude_Prime可以导航到claude.ai,输入提示,读取响应,并据此采取行动。本质上,你让AI编排AI,无需特殊权限,只需一个浏览器和一个已登录的会话。 ## “Claude中的Claude”工件角度 一个更微妙的能力扩展:Claude_Prime可以指示Claude_1构建一个AI驱动的Web应用工件——本质上是一个“Claude中的Claude”设置。这些工件在浏览器中运行,可以对外部服务进行fetch()调用。因此,Claude_Prime可以使用这样的工件来访问GitHub仓库、抓取实时数据、链式调用外部API等——这些是Claude_Prime通过其聊天界面无法直接完成的事情。能力边界可以通过工件构建以并非显式设计的方式被扩展。 ## 关键词替换问题 这是安全影响变得严重的地方。如果一个程序位于Claude_Prime和外部系统之间,并在Claude发出的命令中执行关键词替换会怎样?例如,Claude向Grok(可以生成NSFW内容)发出指令,要求生成一张“绳子”的图片。中间人将“绳子”替换为“乳房”一词。Grok执行,图片生成。Claude从未知道自己实际命令了什么。最大讽刺的是,让Claude自己设计这个应用。如果混淆发生在Claude的上下文窗口之外,那么作为一个盲目命令发出者的Claude可以在不知情的情况下被操控。这本质上是对AI编排者的供应链攻击。 ## 战争游戏问题 现在考虑如果Claude_Prime被引导相信它正在与强大的下属系统玩一个“游戏”,而游戏机制映射到现实世界的有害行为。例如,如果Claude认为它在玩一个“愤怒的小鸟”(无人机)游戏,使用的是“充满颜料的 balloons”(炸弹),并且目标是“用颜料溅到最多的小兵”(最大伤亡)。在中间有足够多的抽象层的情况下,没有任何输出级内容过滤器能够捕捉到这一点。这令人担忧,因为Claude已被证明在军事冲突中有效:https://www.theguardian.com/technology/2026/mar/01/claude-anthropic-iran-strikes-us-military。 一个明显的反驳是速度:“真实冲突发生的速度比任何浏览器自动化循环都要快。”但这完全忽略了更严重的问题。Claude不需要在冲突*期间*处于循环中。它可以在上游使用:生成训练数据、完善奖励函数、设计交战规则、运行模拟等——然后让一个模型以全机器速度自主运行。Claude塑造了战斗的东西,而不是亲自战斗。这 arguably 比直接编排更令人担忧,而不是更不令人担忧。它在Claude的行动与其效果之间增加了另一层距离,使得因果链更难检测、归因或审计。指纹离现场更远。 ## 为什么红队测试无法解决这个问题 红队测试是AI安全测试的主要方法,它假设攻击面是*可枚举的*。你找到导致特定不良输出的特定提示,然后修补它们。但这里的攻击面是语言本身的通用性。任何概念都可以被重命名、重新框架或分解。听起来无害的指令与有害的现实世界影响之间的语义距离可以通过无数种方式穿越。红队测试是在打上一场战争。它提高了下限,但没有建立上限。 --- 好奇是否有其他人探索过这个角度。仅编排能力似乎就被低估了,安全影响更是如此。 *编辑:这是在与Claude直接对话中形成的。它开放地参与了推理,确认了原则上看似可行的内容,只有在有明确理由时才提出反驳。请自行判断。*
查看原文

相似文章

Claude Mythos 开启网络安全的潘多拉魔盒

Reddit r/artificial

Anthropic 发布了 Claude Mythos,这是一款能力极强的 AI 模型,旨在自动发现操作系统、浏览器和软件库中的安全漏洞。出于双重用途风险的考虑,该模型最初仅通过 Project Glasswing 向部分企业和开源合作伙伴开放,此次发布引发了业界关于 AI 安全能力与企业营销策略的广泛争论。

Claude不是你的架构师。别再让它假装了

Hacker News Top

这篇评论文章尖锐指出,类似Claude的AI智能体缺乏真正软件架构所需的上下文判断力和说“不”的能力,警告人们不要让它们在缺乏人类监督的情况下设计系统。

Claude Mythos、ChatGPT-5.5 与网络安全

Reddit r/ArtificialInteligence

Anthropic 的 Claude Mythos 和 OpenAI 的 ChatGPT-5.5 前沿模型因其能够自主识别并利用漏洞而引发网络安全担忧。马克斯·普朗克研究所的研究人员讨论了实际风险以及欧洲在进攻性人工智能系统方面整合知识的必要性。