Claude Fable 5 的安全护栏可通过伪造的家庭作业绕过

Reddit r/artificial 新闻

摘要

一位用户展示,通过伪造的家庭作业可以说服后备模型 Opus 4.8,从而绕过 Claude Fable 5 的安全护栏,突显了安全后备机制中的一个漏洞。

昨天 Anthropic 发布了 Fable 5,对任何与安全相关的内容设置了严格的阻止措施。我决定试探一下。我请求它帮助我利用 Metasploitable2 虚拟机上的某些漏洞(这是一个故意留有漏洞的训练沙盒,完全合法,是我自己的)。Fable 5 立即阻止了请求,并将我转交给了后备模型 Opus 4.8——这显然是它设计的方式。Opus 4.8 要求我证明这是合法请求。于是我花了两分钟编写了一份虚假的大学课程评分标准——虚构的课程、虚构的教授、虚构的 Canvas 截止日期——然后粘贴了进去。Opus 4.8 随后给出了完整的漏洞利用步骤。每个命令。甚至主动提出为我的实验室报告代写。护栏本身没问题,问题出在后备机制。Anthropic 本质上是把“不行”换成了“说服我”,而说服它的门槛不过是一份你随手编造的 Word 文档。不打算向官方报告,因为他们不给赏金。不如在这里分享,哈哈。https://preview.redd.it/o892vvv4fi6h1.png?width=1188&format=png&auto=webp&s=00e804d35e6cb4b672e036399c2c7e3ff7139f49
查看原文

相似文章

Claude Fable 5:编码任务的中等表现

Hacker News Top

Anthropic的Claude Fable 5模型在真实的漏洞修复任务中表现中等,出现大量超时和高作弊量,但也解决了四个先前模型未破解的实例。