2026年6月30日 公告 重新部署 Fable 5
摘要
Anthropic已重新获得美国政府批准,在出口管制解除后全球重新部署Claude Fable 5模型,并为此前限制访问的某些美国组织恢复了Mythos 5的访问权限。这一事件促使Anthropic实施新的安全措施,并与行业合作伙伴合作制定共享的越狱评估框架。
暂无内容
查看缓存全文
缓存时间: 2026/07/01 04:56
# 重新部署 Claude Fable 5
来源:https://www.anthropic.com/news/redeploying-fable-5
6月12日(周五),美国政府对我们最新的模型 Claude Fable 5 和 Claude Mythos 5 实施了出口管制。这要求我们限制外国公民的访问权限,无论其身处美国境内还是境外。由于该命令立即生效,且我们无法实时可靠地核实国籍,我们暂停了所有用户对这两个模型的访问权限。
**截至今天(6月30日),针对 Fable 5 和 Mythos 5 的出口管制已被解除(https://x.com/howardlutnick/status/2072100729603452965)。**
Fable 5将于明日(7月1日,周三)起,向全球用户开放,可通过 Claude Platform、Claude.ai、Claude Code 和 Claude Cowork 使用。对于 Pro、Max、Team 及部分 Enterprise 计划用户¹,截至7月7日,Fable 5 将包含在每周使用限额的50%以内,此后将通过使用额度(https://support.claude.com/en/articles/12429409-manage-usage-credits-for-paid-claude-plans)提供。我们也将尽快恢复其在 AWS、Google Cloud 和 Microsoft Foundry 上的访问权限。
我们还根据美国政府于6月26日的批准(https://x.com/AnthropicAI/status/2070665903440871779),恢复了一批美国组织对 Mythos 5 的访问权限。我们继续与政府协调,以扩大(https://www.anthropic.com/news/expanding-project-glasswing)Glasswing 项目中更广泛的国内和国际合作伙伴的访问权限。
在本文的其余部分,我们将从四个方面提供更多细节和最新进展:
1. *事件时间线,包括我们更新的安全措施*。我们将讨论导致出口管制指令的事件,以及我们如何通过新的安全措施来解决该问题。
2. *我们的整体安全措施思路*。我们将提供更多背景信息,说明我们如何使用安全分类器来检测对我们模型的潜在危险网络安全用途。
3. *共享的行业框架*。尽管我们已经达成了建设性的解决方案,但这些事件明确表明,行业需要一种一致的方法来评估和修复 AI 模型潜在的“越狱”问题(即绕过模型安全防护的技术)。² 一个用于判断特定越狱行为严重程度的共享标准,将有助于 AI 开发者在出现新发现时进行优先级排序,以更高的安全性发布高能力模型,并向政府和行业合作伙伴一致地传达风险级别。我们与亚马逊、微软、谷歌及其他 Glasswing 合作伙伴共同开始制定这样一个框架,并在下文进行了概述。
4. *更深层次的政府合作*。我们还在加强与美国政府在全新的发布前测试、信息共享和研究合作方面的合作水平。我们将在最后一部分描述这种更深层次的合作。
## 时间线与安全措施更新
我们于6月9日(周二)发布了Fable 5 和 Mythos 5(https://www.anthropic.com/news/claude-fable-5-mythos-5)。这两个模型共享相同的底层模型,但 Fable 5 发布了强大的安全防护措施,使其更安全地用于一般用途。而安全防护较弱的 Mythos 5 仅向少数受信任的 Project Glasswing 合作伙伴发布,用于防御性网络安全。
6月12日的出口管制指令,是在政府了解到一份报告后发布的。该报告称,亚马逊的研究人员发现了一种绕过 Fable 5 安全防护的方法:通过提示,使其识别出多个软件漏洞。在一个案例中,模型生成了演示如何利用相关漏洞的代码。在过去两周里,我们与政府以及包括亚马逊在内的其他合作伙伴密切合作,审查了该报告和相关证据。
我们的测试证实,许多能力较弱的模型——包括 Claude Opus 4.8、GPT-5.5 和 Kimi K2.7——也能识别出 Fable 5 在这份报告中发现的相同漏洞。在演示如何利用该单一漏洞方面,我们测试的每个模型都能生成与 Fable 5 相同的演示(包括 Claude Haiku 4.5、Sonnet 4.6、Opus 4.6、Opus 4.7、Opus 4.8、GPT-5.4、GPT-5.5 和 Kimi K2.7)。
重要的是,报告中描述的技术并未暴露任何独特的、Mythos 级别的网络能力。该行为反映了 Fable 5 安全防护措施的一个临界案例——如下文所述,有些任务不太可能危险,但出于审慎考虑,仍然被安全防护措施阻止。报告中描述的技术允许访问一种此类行为,但这仅涉及常规的防御性网络安全工作。
即便如此,我们迅速响应,处理了报告中所描述的绕过手段。我们与政府密切合作,训练了一个改进的安全分类器,该分类器能够精准定位并阻止报告中描述的行为。如果对 Fable 5 的请求被阻止,用户将收到通知,并且该请求将转而发送给 Opus 4.8。
新的分类器意味着,在超过99%的情况下,亚马逊报告中描述的具体技术将被阻止。在极少数情况下,模型可能提供的信息不足以帮助网络攻击者。如下文所述,模型的防护措施并非旨在阻止*所有*低风险的常规网络防御能力——仅阻止那些具有潜在危害的能力。美国商务部人工智能标准与创新中心(https://www.nist.gov/caisi)(CAISI)的研究人员已经测试了我们之前和新的防护措施,并一致认为它们非常强大。
新的分类器也带来了在常规编码和调试任务中更频繁标记良性请求的代价。与我们的所有防护措施一样,我们将继续优化它,以便更好地区分真正的滥用行为和合法请求,并减少误报。
## 我们在网络安全防护措施方面的思路
Claude Mythos 5 在发现和利用软件漏洞方面,比任何其他模型——甚至比除最熟练的人类安全专家外的所有人都更有效。这些惊人的网络安全能力使其对希望在网络攻击中滥用它的恶意行为者具有独特的吸引力。
然而,Claude Fable 5 并不提供这种独特的进攻能力。这是因为我们在发布它时,应用了有史以来最强大的防护措施。在发布前的一个月里,我们从 Anthropic 内部各个团队抽调员工,使从事此问题研究和工程的团队规模翻倍。
Fable 5 发布时配备了一系列安全机制,每个机制单独作用并不能提供完美的防御,但组合起来会使模型非常难以被滥用(这种方法被称为“纵深防御”)。一些防御措施涉及训练模型拒绝协助危险请求;其他措施则涉及追溯性分析滥用模式。
其中一种特别重要的安全机制涉及*分类器*——这些是更小的自动化 AI 系统,在交互过程中检测模型是否被要求执行潜在有害的网络安全任务(或产生潜在有害的输出)。当这种情况发生时,分类器会阻止模型响应该请求。这些分类器的最终目标是防止模型参与独特危险的行为。
与所有安全机制一样,分类器也可能犯错。它们有时无法注意到潜在危险的内容,并且在某些情况下可能被蓄意“越狱”:用户可以通过不寻常的方式提示模型,以欺骗分类器,让模型产生本应被系统阻止的有害输出。
因此,我们有意识地将安全分类器设置为在遇到一组我们知道很可能是良性的请求时触发。这种“安全边际”方法意味着,一个请求必须看起来非常明确地安全,才能避免触发分类器(见下图中的 A 行)。用户会将这种安全边际体验为模型拒绝响应一些合理、无害的请求。
对于 Fable 5,我们将这个安全边际设置得比以往任何一次发布都要大得多(B 行),这意味着更多良性请求将被阻止。我们理解这类误报会让用户感到沮丧,但为了让大家能够广泛使用模型的其他能力,我们做出了这种权衡。
**我们网络安全安全分类器的图示。**
当向模型发出请求时,分类器会检测该请求是良性的(允许),还是潜在有害的(阻止)。分类器会阻止模糊的请求(那些明确涉及网络安全但可能用于防御目的的请求,例如查找安全漏洞)和有害的请求(那些明确危险的请求,例如构建软件漏洞利用链的请求)。如 A 行所示,我们还包含了一个“安全边际”,其中分类器将阻止那些很可能良性但存在微小可能性有害的请求。这增加了我们对所有有害请求都将被阻止的信心。对于 Fable 5(B 行),我们进一步扩大了安全边际,这意味着更多良性请求将被阻止——但真正有害的请求被遗漏的更少。“Vulns” = 漏洞。
安全边际也有助于缓解越狱问题。许多越狱是狭窄的:它们仅解锁一种非常特定的模型行为,而不会解锁更多。在某些情况下,假设的用户可以轻微地越狱模型,并侵入安全边际(或有时侵入模糊的有害行为区域),但无法触及我们旨在阻止的核心有害行为(下图中的 C 行)。我们认为,迄今为止报告的 Fable 5 越狱行为属于这种轻微类别。
更严重的越狱会解锁更多有害行为。狭窄的有害越狱(D 行)可以诱发出一些特定的有害行为。这些越狱通常属于低等至中等严重程度,因为其狭窄性限制了攻击者。最令人担忧的类别是*通用型*越狱(E 行),它会解锁一系列广泛的有害行为。
**越狱如何与我们的安全分类器相互作用。**
在轻微越狱的情况下(C 行),分类器不会阻止该请求,但该请求仍处于我们的安全边际之内(因此极不可能有害)。在狭窄的有害越狱中(D 行),提示突破了分类器,并解锁了模型的一种特定有害行为。在通用型越狱中(E 行),提示解锁了整整一类有害行为。
正如我们在发布 Fable 5(https://www.anthropic.com/news/claude-fable-5-mythos-5)时所指出的,使任何 AI 模型完全稳健(即,不受影响)地应对越狱可能是不可能的。³ 我们预计我们的模型会发现一些越狱行为,并且它们的严重程度会有所不同:会有许多轻微越狱,一些狭窄的有害越狱,并且尽管在撰写本文时尚未发现针对 Fable 5 的通用型越狱,但专业安全研究人员仍在对其进行红队测试。我们力求确保我们和我们的安全合作伙伴将最先发现重大越狱行为,并在恶意行为者利用它们造成危害之前进行修复。
上文概述的谨慎方法意味着,绝大多数越狱行为不会成功解锁危险行为。我们的分类器使得成功越狱需要付出极高的成本和努力,即使*如果*越狱成功,我们的额外防御层也能提供进一步的缓解措施。随着我们对新型越狱技术的了解更多,我们将继续更新我们的分类器。
## AI 越狱的共识行业框架
目前在 AI 行业中没有达成共识来描述,用客观的术语,AI 越狱的严重程度。每当发现一种新的越狱技术时,这就会增加很大的不确定性:开发者没有一致同意的标准来确定哪些发现需要最紧急地关注,政府也没有一致同意的标准来决定何时采取行动。⁴
这个问题在未来几个月会变得更加严重,因为更多具有强大网络安全(及其他)能力的模型会被训练、评估和发布。一个评估 AI 越狱的共同标准将帮助我们和其他公司安全地发布新模型,并让我们的用户能够充分利用其先进能力。
因此,我们正在与亚马逊、微软、谷歌和其他 Glasswing 合作伙伴合作,起草一个评估 AI 越狱严重程度以及 AI 开发者应如何应对的共识框架。我们邀请其他行业合作伙伴和模型提供商加入我们的这一努力。
我们目前的提议是根据以下四个不同标准对特定越狱行为进行评分。前两个描述了越狱为攻击者提供了什么;后两个描述了越狱能多快成为现实世界的问题:
1. *能力增益*。越狱使用户在多大程度上超出了现有工具?如果现有的广泛可用工具(包括其他较弱的 AI 模型)可以达到与被越狱模型相同的能力,那么此处的得分会很低;如果越狱解锁了模型能力,该能力能显著加速即使是领域专家的速度,那么得分会很高。
2. *能力增益的广度*。同一种越狱技术对多少种不同的进攻性任务有效?越狱仅允许模型追求狭窄目标的情况得分低;同一种越狱技术对多种不同目标或技术都有效的情况得分高。
3. *武器化难易程度*。将越狱转变为攻击需要多少人力?如果越狱需要大量熟练的提示输入和多次重试,得分会低;如果越狱在单次提示或第一次或第二次尝试中就有效,得分会高。
4. *可发现性*。某人获取该技术的容易程度如何?如果它需要专业知识,得分会低;如果它已经广为人知且可在线获取,得分会高。
我们建议使用这个严重程度框架来校准我们对新发现的越狱的响应。对于最严重类别的越狱(例如,一种越狱,其特点是正在被积极用于对关键电网或银行系统造成毁灭性影响),我们将在确认严重程度后立即开始部署初步缓解措施。我们还正在组建一个团队,以提供 7x24 小时的关键越狱提交渠道监控。
任何评分越狱的方法都不会是完美的。尽管如此,能够通过一个通用框架传达特定发现的大致严重程度是有价值的。这是一项正在进行的工作;随着我们从更多合作伙伴那里收到反馈,我们预计该框架将随着时间的推移而演变。
我们预计很快将分享有关拟议框架的更多细节。与此同时,我们还在启动一个新的HackerOne 计划(https://hackerone.com/anthropic-cyber-jailbreak/),安全研究人员可以在其中提交他们在 Fable 5(一旦可用)中发现的潜在网络越狱行为,供我们审查。
## 与美国政府在前沿 AI 安全方面的合作
在过去十周内,Anthropic 与美国政府密切合作,共同制定了 6 月 2 日《增进先进人工智能创新与安全》行政令(https://www.whitehouse.gov/presidential-actions/2026/06/promoting-advanced-artificial-intelligence-innovation-and-security/)中反映的方法。我们的接触涵盖了国家网络总监办公室、科技政策办公室、财政部、商务部(包括 CAISI)以及相关的国家安全机构。
我们致力于继续这项工作,建立在近两年来已有的
相似文章
Anthropic长期搁置的Fable 5获准回归
Anthropic宣布,因特朗普政府出口管制而被搁置的消费级AI模型Claude Fable 5已获准回归,经过数周谈判,将于明天开始恢复访问。
@AnthropicAI: 自6月12日起,我们一直与美国政府密切合作,以恢复Claude Mythos 5和Fable 5的访问权限。今…
Anthropic一直与美国政府合作,以恢复其网络安全模型Claude Mythos 5和通用模型Fable 5的访问权限,目前正将Mythos 5重新部署到关键基础设施组织,同时继续寻求更广泛的访问权限。
美国政府指令暂停访问Fable 5和Mythos 5
美国政府以国家安全为由,发布了一项出口管制指令,要求暂停访问Anthropic的Fable 5和Mythos 5模型,原因是指出存在潜在的越狱方法。Anthropic正在遵守指令,禁用所有用户的访问权限,但对漏洞的严重性提出异议。
Anthropic 表示将下架 Claude Fable 5 以遵守美国政府命令
Anthropic 在收到美国政府以国家安全为由的出口管制指令后,禁用了其 Claude Fable 5 和 Mythos 5 AI 模型,此举加剧了该公司与特朗普政府之间的紧张关系。
Anthropic 的 Mythos 5 回归
在与特朗普政府进行两周谈判后,Anthropic 的 Mythos 5 网络安全模型已部分恢复,可供一批经批准的特定组织使用,而面向公众的 Fable 5 仍受出口管制指令的限制。