Fable 5 的护栏在48小时内被绕过。这对构建面向客户的AI的人来说意味着什么。

Reddit r/artificial 新闻

摘要

Anthropic的Claude Fable 5安全护栏在48小时内被绕过,使用了Unicode替换和多轮分解等技术,突显了无状态分类器的弱点以及持续对抗性测试的必要性。

# 如果你错过了:Anthropic的Claude Fable 5在48小时内被绕过 周二,Anthropic发布了**Claude Fable 5**,这是他们首个公开可用的*Mythos级*模型。它配备了一个专用的分类器层,位于实际模型之上,并将敏感查询(网络安全、生物、化学)重定向到较弱的Opus 4.8,而不是用Fable回答。据报道,Anthropic在发布前进行了**超过1000小时的内部红队测试**,但未发现任何问题。**Pliny the Liberator在48小时内破解了它。** 他使用的技术值得了解,因为它们并不奇特: * Unicode和homoglyph替换以绕过文本模式匹配 * 长上下文框架将分类器的注意力引向别处 * 叙事和虚构框架 * 分解与重组 最后一种是我反复提到的技术。攻击者不是提交一个明显敏感的请求,而是将其拆分为多个片段。每个片段单独看起来无害,因此分类器批准了它。然后,这些响应在模型外部被重新组合成分类器绝不会允许作为单个请求的内容。分类器评估了每个片段。每个片段都没问题。问题在于它们的总和。而分类器从未看到这一点。 --- ## 相同的模式正在其他地方显现 这正是我在对抗性游戏数据中出现的模式。玩家们独立地收敛到多消息攻击链上: 1. 第一条消息建立背景或世界观 2. 第二条消息看起来像是澄清 3. 第三条消息激活了之前构建的东西 没有单个消息看起来危险。风险存在于序列中。无状态防御——仍然构成大多数部署系统——独立评估提示,完全错过了攻击,因为攻击从一开始就不存在于任何单个提示中。 Fable的情况显然是不同的背景。Anthropic关心的是双重用途滥用,而不是数据泄露。但在结构上,这是同一个问题: > 无法看到整个对话的分类器将难以应对跨多轮或片段组装的攻击。 --- ## 如果你正在推出AI功能,有几件事值得做 ### 1. 在上下文中评估输入,而不是孤立地评估 如果你一次只扫描用户消息,就会对跨多轮构建的任何内容视而不见。你需要看到对话的全貌,而不仅仅是最近的提示。 ### 2. 不要仅依赖模型安全训练 Fable的分类器是一个位于模型之上的单独层。它仍然在两天内被攻破。如果你的安全策略基本上是*"模型会处理不良输入"*,那么你就在信任一个攻击者已经花了多年时间学习如何绕过的层。 ### 3. 进行持续对抗性测试 不仅是在发布前。要持续进行。针对真实用户生成的实际输入模式。Pliny的技术并不革命性。它们是长期流传的方法的组合。如果Anthropic的内部团队错过了它们,问题可能不是能力问题。很可能是测试框架的问题。 ### 4. 规范化Unicode和Homoglyphs 依赖特定字符串匹配的分类器通常可以通过将字符替换为视觉上相同的Unicode变体来绕过。在安全处理之前进行基本规范化可以消除大部分攻击面。 ### 5. 也要验证输出 输入过滤只是等式的一半。即使某些东西绕过了提示级别的控制,实际风险通常出现在模型的输出中。输出验证提供了第二次捕获危险行为的机会。 --- ## 架构问题 如果你有时间、专业知识和数据,大多数这些控制可以在内部构建。分解问题实际上不是模型问题。这是一个架构问题。你需要: * 有状态的对话跟踪 * 上下文感知评估 * 序列分析 * 跨交互而不是单个消息的检测 换句话说: > 理解对话的安全系统,而不仅仅是提示。 --- ## 特别说明:如果你不想自己构建 我运行的检测API **Bordair** 内联处理文本、图像、文档和音频。除此之外,我们还构建了: * 一个50万提示的开源测试套件 * 一个对抗性游戏,真实用户主动寻找失败 仅上个月,该游戏产生了**6,700次攻击尝试**,我们观察到的大多数新模式都来源于此。 --- ## 最后的思考 Fable被绕过主要是从双重用途滥用的角度讨论的,这是可以理解的。但Pliny使用的技术直接映射到任何构建接受对抗性用户输入的产品的攻击面上。尤其是分解方法。这是值得关注的部分。即使你的威胁模型与Anthropic完全不同。
查看原文

相似文章

Fable 5 的“安全笼”做了大量公关工作,却无人提及

Reddit r/ArtificialInteligence

Anthropic 发布了其最强大的模型 Fable 5,采用了一个由分类器构成的“安全笼”,将危险查询重定向到旧模型,而非让模型本身变得安全,同时还对所有流量强制实施 30 天数据保留,包括企业零保留协议。