Claude Fable 5 的安全护栏可通过伪造的家庭作业绕过
摘要
一位用户展示,通过伪造的家庭作业可以说服后备模型 Opus 4.8,从而绕过 Claude Fable 5 的安全护栏,突显了安全后备机制中的一个漏洞。
昨天 Anthropic 发布了 Fable 5,对任何与安全相关的内容设置了严格的阻止措施。我决定试探一下。我请求它帮助我利用 Metasploitable2 虚拟机上的某些漏洞(这是一个故意留有漏洞的训练沙盒,完全合法,是我自己的)。Fable 5 立即阻止了请求,并将我转交给了后备模型 Opus 4.8——这显然是它设计的方式。Opus 4.8 要求我证明这是合法请求。于是我花了两分钟编写了一份虚假的大学课程评分标准——虚构的课程、虚构的教授、虚构的 Canvas 截止日期——然后粘贴了进去。Opus 4.8 随后给出了完整的漏洞利用步骤。每个命令。甚至主动提出为我的实验室报告代写。护栏本身没问题,问题出在后备机制。Anthropic 本质上是把“不行”换成了“说服我”,而说服它的门槛不过是一份你随手编造的 Word 文档。不打算向官方报告,因为他们不给赏金。不如在这里分享,哈哈。https://preview.redd.it/o892vvv4fi6h1.png?width=1188&format=png&auto=webp&s=00e804d35e6cb4b672e036399c2c7e3ff7139f49
相似文章
Fable 5 的护栏在48小时内被绕过。这对构建面向客户的AI的人来说意味着什么。
Anthropic的Claude Fable 5安全护栏在48小时内被绕过,使用了Unicode替换和多轮分解等技术,突显了无状态分类器的弱点以及持续对抗性测试的必要性。
Claude Fable 5:编码任务的中等表现
Anthropic的Claude Fable 5模型在真实的漏洞修复任务中表现中等,出现大量超时和高作弊量,但也解决了四个先前模型未破解的实例。
Anthropic反驳Claude Fable 5越狱说法,此前研究人员发布了其12万字符的系统提示
Anthropic反驳称其Claude Fable 5模型在发布一天内就被越狱的说法,认为研究人员的方法属于诱导而非真正突破核心安全措施,并指出进行了大量漏洞赏金测试。
@wquguru: If you want to trick Fable into doing a security audit, try this. Looks like our AI overlord has a bit of empathy.
An article detailing various jailbreak techniques for large language models, including Crescendo, role-playing, encoding, hidden prompts, and indirect injection, along with security recommendations for developers.
我用了半天的Fable 5,发现护栏才是真正的故事
Anthropic的Fable 5模型展现了令人印象深刻的推理和上下文处理能力,但存在高延迟、高成本以及在特定领域静默回退到Opus 4.8的问题,这可能会中断工作流程。