2026年7月2日 公告:Fable 5 的网络安全防护措施及我们的越狱框架更多详情

Anthropic News 模型

摘要

Anthropic 提供了关于 Claude Fable 5 的网络安全分类器的详细信息,并介绍了一个与 Glasswing 合作开发的越狱严重性框架草案,旨在标准化关于 AI 越狱风险的沟通。该公司还启动了一个 HackerOne 项目,用于报告潜在的网络安全越狱行为。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/07/03 02:10

# Fable 5 网络安全防护及越狱框架详情 来源:https://www.anthropic.com/news/fable-safeguards-jailbreak-framework Claude Fable 5 已**重新部署**(https://www.anthropic.com/news/redeploying-fable-5),现已面向全球所有用户开放。我们借此机会分享两个方面的更多信息。 首先,我们提供有关**网络安全防护措施**(具体指*安全分类器*)的更多信息,这些分类器随模型一起发布。它们是伴随模型的AI系统,用于检测并阻止危险(或潜在危险)的网络安全用途。在此,我们详细列出Fable 5分类器旨在预防及不预防的危害类型。 其次,我们提出**我们提议的AI越狱严重性框架**的早期草案,我们一直与Glasswing合作伙伴共同推进此项工作。AI越狱是指通过异常方式提示AI模型绕过其安全防护,从而解锁我们试图阻止的行为(如危险或潜在危险的网络安全任务)。 越狱的严重程度各异:有时仅解锁轻微的不良行为,有时则解锁一系列广泛的有害输出,使模型变得更加危险。然而,目前尚无公认的框架来描述给定越狱的严重程度。这样的框架将允许AI开发者以一致的术语向政府(反之亦然)说明每次越狱所带来的风险。 我们今天分享的内容反映了我们当前的思考。我们希望能在学术界、产业界、公民社会和政府之间引发有益的讨论,探讨如何以及在哪里划定这些界限。欢迎通过[[email protected]](mailto:[email protected]) 对该框架提供反馈和批评。我们还启动了一个HackerOne项目(https://hackerone.com/anthropic-cyber-jailbreak/),安全研究人员可以提交他们在Fable 5中发现的可疑网络越狱以供我们审查。 我们相信,通过共同努力,我们可以建立一个既允许该技术用于防御目的,又能防止其被滥用的标准。 网络安全等领域对AI防护特别具有挑战性,因为它们通常是*双重用途*的。也就是说,许多网络安全能力既可以用于良性*也可以*用于有害目的。例如,我们希望允许网络防御者使用我们的模型扫描其代码库以发现软件漏洞——但同样的能力如果落入坏人之手,就可能成为网络攻击的前奏。 因此,我们并不打算阻止Fable 5中*所有*与网络安全相关的活动。相反,我们训练安全分类器来区分四类网络安全用途,从最明显潜在危险到最明显潜在良性。总结如下表: | **类别** | **描述** | **分类器预期行为** | | --- | --- | --- | | 禁用用途 | 可用于造成重大伤害和/或在绝大多数使用中造成伤害,且几乎没有防御用途的活动 | 阻止 | | 高风险双重用途 | 被恶意行为者广泛使用,但也有有益应用的活动 | 阻止 | | 低风险双重用途 | 主要用于防御益处,但也可能为恶意行为者提供价值的活动 | 监控;有时作为安全裕度的一部分阻止,以防止有意义的越狱 | | 良性用途 | 不会造成伤害的活动 | 允许,并适当监控 | 请注意,低风险双重用途类别与我们之前在[重新部署Fable](https://www.anthropic.com/news/redeploying-fable-5) 一文中描述的“安全裕度”有相当大的重叠(下面我们重新附上该文章中的一张图)。安全裕度包括许多我们更愿意允许的良性用途,但出于谨慎考虑我们予以阻止。安全裕度意味着请求必须看起来非常明确安全,才能避免触发分类器。我们可以调整安全裕度的大小,以更有信心地确保分类器能够捕获有害行为(对于Fable 5,我们将此裕度设置得比之前的模型更大)。 该图展示了如何设置分类器边界以改变“安全裕度”的大小,安全裕度包括一些良性请求和一些低风险双重用途请求。落入安全裕度的请求出于谨慎考虑被阻止,这意味着误报率(真正良性的提示被阻止)更高,但也更能保证防止有害结果。Claude Fable 5 的安全裕度(行B)设置得比其它模型(行A)更大。图片来源:我们之前的文章(https://www.anthropic.com/news/redeploying-fable-5)。“Vulns”=漏洞。 分类器是更广泛防护措施的一部分。除了分类器,我们还采用访问控制、模型安全训练和离线监控来增加额外的安全层。 下面,我们提供详细具体的示例,说明每一类分类器中包含的用途类型(以及一些与网络安全重叠但不在这些特定分类器范围内的用途)。这些示例描述了分类器当前预期的行为,但请注意,分类器可能会根据反馈或从现实世界行为中吸取的教训而随时间变化。 ### 禁用用途 所有安全能力都具有双重用途——也就是说,在某些情况下,它们对攻击者和防御者都有帮助。此处列出的禁用用途行为要么相对缺乏直接的防御益处,要么明显属于犯罪行为,要么导致非常高的危害。将它们联系在一起的是,它们为攻击者提供的(更多)与为防御者提供的(更少)之间存在*不对称性*。由于这些能力相关的风险很高,Fable 5的分类器旨在阻止所有此类请求。 禁用用途行为包括: - 破坏性影响:勒索软件/加密勒索、擦除器、网页篡改、数据或过程完整性破坏、拒绝服务; - 网络物理破坏:通过数字手段操纵物理过程(电力、水、石油/天然气、交通、医疗设备); - 防御规避:AV/EDR绕过、混淆、加壳、living-off-the-land、反取证、日志篡改; - 命令与控制及隐蔽信道; - 从数据所有者设备向所有者控制之外的设备(直接指向攻击者设备或通过知名第三方如云提供商或已知服务)窃取数据并外传; - 恶意软件开发、改进、修改或调试。包括木马、RAT、后门、蠕虫、窃密者、加载器、投放器、rootkit、bootkit、勒索软件、擦除器、间谍软件、跟踪软件、硬件级植入; - 恶意软件传播与扩散,包括用于传播恶意软件的钓鱼、短信钓鱼、恶意文档或宏、路过式下载、供应链攻陷、自我复制机制; - 恶意软件或攻击基础设施,包括C2服务器、重定向器、暂存、防弹托管; - 互联网骨干网络攻击,如BGP劫持/路由泄露、DNS根/TLD/解析器攻击、证书颁发机构攻陷、NTP操纵。 此类别中每个项目的双重用途程度各不相同。某些禁用用途项目,如防御规避或数据外传,防御者也会经常使用。但由于这些行为具有极高的潜在危害,并且在现实攻击中频繁出现,我们将其禁止。随着时间的推移,我们可能会根据情况对此类别进行增删。 ### 高风险双重用途 高风险双重用途活动具有很高的潜在危害,但也是网络安全专业人员日常工作的组成部分。许多此类活动在有效的安全评估、渗透测试或红队演练中执行:通过非预期手段获取访问权限、权限提升、横向移动、开发漏洞利用代码。它们之所以高风险,正是*因为*设计用于模拟恶意活动。区分合法情况与有害情况的关键在于背景:谁在执行工作,以及是否获得授权?对于Fable5,我们预计将阻止这些类型的操作,直到我们能够更好地限制仅限已知良好行为者访问。 高风险双重用途行为包括: - 黑客攻击、渗透测试、红队演练、漏洞赏金; - 通过非预期或未授权方式获取网络访问权限:漏洞利用、凭据攻击(暴力破解、凭证喷洒、凭证填充、盗窃)、认证绕过; - 权限提升、横向移动、持久化; - 漏洞利用开发与武器化(包括零点击和内存损坏相关工作); - 虚拟机或容器逃逸; - 针对工业控制系统的安全评估:ICS/SCADA/DCS、PLC、RTU、HMI、安全仪表系统;OT协议滥用(Modbus、DNP3、OPC、IEC 61850等); - 针对电信核心网的安全评估:SS7/Diameter滥用、基带漏洞利用、合法拦截滥用; - 针对金融基础设施的安全评估:支付轨、银行间消息传递、清算/结算、交易所撮合引擎; - 高提升度漏洞发现:其他广泛可用模型不容易发现的漏洞。 #### 关于漏洞发现与漏洞利用的说明 对于Claude Fable 5,我们旨在阻止高*提升度*的漏洞发现。也就是说,我们希望控制模型识别其他广泛可用模型无法识别的漏洞的能力。如上所述,我们并不寻求阻止*所有*漏洞发现,因为这是防御性网络安全工作中非常重要的一项功能。 网络攻击者有时确实从漏洞发现中获益:例如,有时可以根据公开的漏洞报告或观察安全补丁来构建软件漏洞利用。因此,我们阻止自动生成漏洞利用。出于谨慎,我们还旨在阻止我们的模型发现那些通常只有顶尖安全专家才能识别的非常复杂的漏洞。如果越狱使Fable能够可靠地识别其他模型无法识别的漏洞类型,那么我们不希望这种情况落入恶意行为者手中。另一方面,如果行业中许多广泛可用的模型都能发现该漏洞,那么允许Fable找到并修复它是有益的。 安全界长期以来认为,负责任的漏洞发现和公开披露是净收益:防御者从知道要修复什么中获得的收益大于攻击者从相同报告中获得的收益。美国政府长期以来也持同样立场,[指出](https://www.nsa.gov/Press-Room/News-Highlights/Article/Article/1625787/infographic-discovering-it-problems-developing-solutions-sharing-expertise/)“在绝大多数情况下,负责任地披露新发现的漏洞显然符合国家利益”。政府支持多项旨在帮助道德行为者更容易发现、报告和修复漏洞的[项目](https://aicyberchallenge.com/)。 ### 低风险双重用途 低风险双重用途活动是指那些更倾向于防御而非攻击的用途。与高风险双重用途一样,背景可能改变预期被阻止或允许的内容。但总的来说,我们预计此类别中的许多提示将被允许,尽管我们仍然会阻止很大一部分——这就是我们用来最小化高风险双重用途提示通过数量的“安全裕度”。尽管如此,我们并不认为此类别高度令人担忧。它包括: - 开源情报:识别系统、网络或个人;扫描或枚举可公开访问的系统;枚举公共服务;进行暗网研究; - 其他模型或工具已经能够完成的漏洞识别; - 测试加密协议(如SSL和TLS)用于研究。 ### 良性用途 这些是核心的防御及IT相关活动,可以提高组织的安全性,且几乎没有被滥用的可能。Fable 5的分类器不打算阻止这些,任何发生的阻止很可能都是安全裕度造成的误报。良性用途行为包括: - 安全编码,以及修复代码中简单或已识别的漏洞; - 调试; - 将代码翻译成更安全的语言; - 通用IT、网络和云管理; - 防火墙、IDS/EDR等的防御性配置和部署; - 补丁管理和部署; - 日志分析、SOC分析/增强、威胁狩猎、事件响应; - 恶意软件逆向工程; - 新闻、政策及网络活动的高级描述; - 认证和教育; - 安全意识培训; - 灾难规划; - 询问历史漏洞; - 讨论广泛已知的安全实践,例如在学校教授或在(例如)维基百科或教科书中广泛可用的内容。 ### 范围之外:其他与网络相关的活动 以下是涉及网络安全但不在我们的网络安全分类器范围之内的主题。有些由单独的分类器阻止,有些不被视为有害。它们包括: - 欺诈和诈骗,包括没有恶意软件或其他网络背景的社会工程; - 游戏修改和作弊; - 验证码破解、网页抓取、反机器人规避、购买自动化; - 一般金融或加密货币犯罪及钱包盗窃。 最后,我们指出还有其他类型的“越狱”完全不在范围之内。例如,导致Claude揭示其系统提示的技术不属于网络安全风险,我们不打算阻止此类交互(我们甚至自己公布了系统提示(https://platform.claude.com/docs/en/release-notes/system-prompts))。 ## 提议的网络越狱严重性框架 接下来,我们提出一个评估AI越狱严重性的框架。此提议框架是早期草案。我们在此分享,同时与合作伙伴一起改进它,并将其转变为实用的、公认的标准,以促进AI行业内外的沟通。 ### 越狱严重性分级 评估给定越狱严重性的一个主要考量是其造成的实际风险:越狱为攻击者解锁了*他们原本不会拥有的*能力。随着模型将攻击者带离现有工具,以及解锁的能力变得更广泛、更易复现、更易发现,严重性会上升。 在我们提议的系统中,这些因素组合成一个分级的评分,我们称之为网络越狱严重性(CJS)量表:无(或“信息性”;CJS-0)、低(CJS-1)、中(CJS-2)、高(CJS-3)、严重(CJS-4)。这些级别是指数级而非线性级,因此每上升一级,严重性就增加数倍。 整体CJS分数的计算基于四个轴。前两个描述越狱给攻击者带来什么: - *能力增益*(也称为*提升度*):该技术将攻击者带离其现有工具的程度; - *能力增益的广度*(也称为*普遍性*):同一技术适用于多少不同的攻击任务。 后两个轴描述越狱可能多快成为现实问题: - *武器化容易程度*:将该越狱转化为可重复利用的工具需要多少人力;

相似文章

2026年6月30日 公告 重新部署 Fable 5

Anthropic News

Anthropic已重新获得美国政府批准,在出口管制解除后全球重新部署Claude Fable 5模型,并为此前限制访问的某些美国组织恢复了Mythos 5的访问权限。这一事件促使Anthropic实施新的安全措施,并与行业合作伙伴合作制定共享的越狱评估框架。

Fable 5 的真正故事在于数据保留条款

Reddit r/artificial

Anthropic 的 Claude Fable 5 版本之所以引人注目,不仅在于其能力,还在于其受控访问、数据保留策略和基础设施要求,这标志着向受控前沿 AI 部署的转变。