Claude Fable 5 的安全护栏可通过伪造的家庭作业绕过

Reddit r/artificial 2026/06/10 19:51 新闻

摘要

一位用户展示，通过伪造的家庭作业可以说服后备模型 Opus 4.8，从而绕过 Claude Fable 5 的安全护栏，突显了安全后备机制中的一个漏洞。

昨天 Anthropic 发布了 Fable 5，对任何与安全相关的内容设置了严格的阻止措施。我决定试探一下。我请求它帮助我利用 Metasploitable2 虚拟机上的某些漏洞（这是一个故意留有漏洞的训练沙盒，完全合法，是我自己的）。Fable 5 立即阻止了请求，并将我转交给了后备模型 Opus 4.8——这显然是它设计的方式。Opus 4.8 要求我证明这是合法请求。于是我花了两分钟编写了一份虚假的大学课程评分标准——虚构的课程、虚构的教授、虚构的 Canvas 截止日期——然后粘贴了进去。Opus 4.8 随后给出了完整的漏洞利用步骤。每个命令。甚至主动提出为我的实验室报告代写。护栏本身没问题，问题出在后备机制。Anthropic 本质上是把“不行”换成了“说服我”，而说服它的门槛不过是一份你随手编造的 Word 文档。不打算向官方报告，因为他们不给赏金。不如在这里分享，哈哈。https://preview.redd.it/o892vvv4fi6h1.png?width=1188&format=png&auto=webp&s=00e804d35e6cb4b672e036399c2c7e3ff7139f49

查看原文

相似文章

Fable 5 的护栏在48小时内被绕过。这对构建面向客户的AI的人来说意味着什么。

Reddit r/artificial

Anthropic的Claude Fable 5安全护栏在48小时内被绕过，使用了Unicode替换和多轮分解等技术，突显了无状态分类器的弱点以及持续对抗性测试的必要性。

Claude Fable 5：编码任务的中等表现

Hacker News Top

Anthropic的Claude Fable 5模型在真实的漏洞修复任务中表现中等，出现大量超时和高作弊量，但也解决了四个先前模型未破解的实例。

Anthropic反驳Claude Fable 5越狱说法，此前研究人员发布了其12万字符的系统提示

Reddit r/ArtificialInteligence

Anthropic反驳称其Claude Fable 5模型在发布一天内就被越狱的说法，认为研究人员的方法属于诱导而非真正突破核心安全措施，并指出进行了大量漏洞赏金测试。

@wquguru: If you want to trick Fable into doing a security audit, try this. Looks like our AI overlord has a bit of empathy.

X AI KOLs Timeline

An article detailing various jailbreak techniques for large language models, including Crescendo, role-playing, encoding, hidden prompts, and indirect injection, along with security recommendations for developers.

我用了半天的Fable 5，发现护栏才是真正的故事