Claude Fable 5 及新的AI安全寓言(14分钟阅读)
摘要
Anthropic 发布了 Claude Fable 5,这是一款重大新模型,在各项基准测试中显示出显著的能力提升,并引入了新的安全措施,标志着AI发展的一个关键时刻。
Anthropic 发布 Claude Fable 5 的同时,还推出了一系列安全措施,其中一些措施会在不告知用户的情况下修改模型,以保护该实验室目前的领先地位。像这样不均衡应用的安全策略很少能奏效。尽管 Anthropic 完全有权实施这些安全措施,但其行为在AI生态系统中营造了一种“我们对他们”的动态。这些行动凸显了用户需要可以信任、修改和控制的智能体。
查看缓存全文
缓存时间: 2026/06/11 00:12
# Claude Fable 5 与新的安全寓言
来源:https://www.interconnects.ai/p/claude-fable-5-and-new-ai-safety
今天,Anthropic 向消费者和企业用户发布了其 Claude Fable 5 模型 (https://www.anthropic.com/news/claude-fable-5-mythos-5)。这是其 Mythos 级模型的通用访问版本。与此同时,Anthropic 还推出了一系列安全措施——有些明确告知了用户,有些则在用户不知情的情况下修改了模型。AI 能力的下一大步伴随着更严厉的安全措施,表明 Anthropic 意图保护或巩固其当前领先地位,这件事本身应该并不那么令人惊讶。
Anthropic 推出的这些应用不均的安全政策,正逐渐成为一个经典警示寓言,说明那些狭隘且自我实现的安全与控制观念很少能真正奏效。
分享 (https://www.interconnects.ai/p/claude-fable-5-and-new-ai-safety?utm_source=substack&utm_medium=email&utm_content=share&action=share)
在深入探讨安全事实的细微差别之前,有必要先明确这个模型的质量。模型的质量决定了今天的利害关系——因为这些安全特性正在实质性地改变人们接触前沿 AI 的方式,这在现代 LLM 的历史上是从未发生过的。其次,这些能力表明,这个故事只会加速发展。递归式自我改进 (https://www.interconnects.ai/p/lossy-self-improvement) 并不是从此刻开始进步的准确思维模型,但 Claude Fable 5 应该清楚地表明,训练 LLM 并不存在立竿见影的障碍。
首先——Claude Fable 5 无疑是目前面向公众的最智能模型——在当今几乎所有相关基准测试上都取得了显著飞跃——而价格仅为当前 Opus 模型 1 的 2 倍 (https://www.interconnects.ai/p/claude-fable-5-and-new-ai-safety#footnote-1)(这仍然低于 GPT 5.5 Pro 的变体价格)。仅凭这一点,就是该领域的一个开创性时刻。在后 ChatGPT 的 LLM 竞赛进行了数年之后,一个模型迭代还能在能力上迈出如此重大的一步,这令人震惊。这个模型并没有伴随明显的突破,比如推理时缩放或强化学习,公众普遍认为这是整个技术栈共同进步的结果(当然,我们无法确切知道——因为没有文档记录)。这是一项重大的技术成就,构建该模型的员工应该为他们的工作感到非常自豪。
这个模型在训练完成后被推迟了 2 个多月才公开发布 2 (https://www.interconnects.ai/p/claude-fable-5-and-new-ai-safety#footnote-2)。考虑到 AI 经济的竞争动态,这个模型更智能的版本已经在顺利进行中。
接下来是模型的具体基准测试结果。
基准测试表显示了 Claude Fable 和 Mythos 与其他领先模型的对比 (https://substackcdn.com/image/fetch/$s_!zKZX!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F7caf7c30-6c3d-4735-b600-02d7c534525d_2600x2870.webp)
需要留意的是,这些分数未必是公众最终能获得的分数,因为当前模型上的安全过滤器会将其中的部分提示降级到 Opus 4.8 处理。
这是基准测试分数上的一种跃升,我甚至无需大量测试模型就能知道它是一个极好的工具。记住,Anthropic 也是那个*最不*在乎基准测试的 AI 实验室(特别是与 OpenAI 和 Gemini 相比时)。回想一下我在 2025 年 6 月 (https://www.interconnects.ai/p/summertime-outlook-o3s-novelty-coming) 发表的一个评论:
> 这对行业来说是一条不同的道路,并且需要一种我们不太熟悉的沟通形式。更多的发布将会像 Anthropic 的 Claude 4 (https://www.interconnects.ai/p/claude-4-and-anthropics-bet-on-code) 那样,基准测试的增益很小,而实际世界的增益是重大的一步。随之而来的是对政策、评估和透明度更多的启示。要理解进步的步伐是否在继续,将需要更多的细微差别,尤其是当 AI 的批评者会抓住评估结果停滞不前的机会,声称 AI 不再有效时。
很明显,进步动态的一些部分已经发生了变化,但那是另一篇文章的内容了。今年我已经写过多篇 (https://www.interconnects.ai/p/opus-46-vs-codex-53) 文章 (https://www.interconnects.ai/p/get-good-at-agents) 关于新模型,特别是关于很难信任基准测试(部分原因是基准测试本身变化不大)。总而言之,这对于那些意识到自己可能再也无法写出有意义的代码,需要围绕智能体开发新工作流程的、精通 AI 的工作者来说,是一个重大的验证。
这次发布涉及多项安全工具,包括但不限于强制性的数据保留策略和新增的提示过滤器。通过这次分析,特别重要的是要精确清晰地指出这些措施中哪些部分造成了损害,以及为什么在本来全面的安全政策中,单个元素的不协调对整个安全流程如此有害。
在网络安全、有针对性的模型蒸馏和研究生物学这些重点领域,Anthropic 在其博客文章 (https://www.anthropic.com/news/claude-fable-5-mythos-5) 中详细介绍了新的安全分类器:
> Fable 5 配备了一套新的 *分类器*:独立的 AI 系统,用于检测潜在的滥用行为(包括越狱尝试),并阻止主模型(此处指 Fable 5)做出响应。我们运行分类器已有 (https://www.anthropic.com/research/next-generation-constitutional-classifiers) 一段时间,Fable 5 的分类器是这项先前工作的延伸,并提供了额外的覆盖范围。当 Fable 的分类器检测到与网络安全、生物学与化学或蒸馏相关的请求时,响应会自动由 Claude Opus 4.8 处理。这种情况发生时,用户将被告知。Opus 4.8 本身就是一个非常强大的模型:回退到 Opus 的响应远比 Fable 直接拒绝要好得多。我们的早期数据显示,超过 95% 的 Fable 会话完全不会触发回退——在这些会话中,Fable 5 的性能与 Mythos 5 基本相同。
主要的网络安全和生物学安全过滤器(会在触发时明确告知用户)的例子已经 (https://x.com/DimitrisPapail/status/2064415276968333548) 在网络上 (https://x.com/DeryaTR_/status/2064414826122866707) 流传 (https://x.com/acerfur/status/2064400810054680634?s=46) ,并且看起来相当敏感。这对用户来说可能是一种令人沮丧的体验,但 Anthropic 绝对有权这样做,并且在智识上也是连贯的。
安全故事中破坏性的部分隐藏在 **Claude Fable 5 & Claude Mythos 5 系统卡 (https://www-cdn.anthropic.com/d00db56fa754a1b115b6dd7cb2e3c342ee809620.pdf)** 中:
> 我们还增加了与前沿大语言模型开发相关的保障措施。正如我们在 2026 年 2 月风险报告的第 6.1 节中所讨论的,我们担心加速 AI 整体发展速度的风险,尽管我们对这些风险的严重程度仍不确定。具体来说,我们担心的是——正如我们当时所写的——“加速其他 AI 开发者构建与我们的系统构成类似风险的强大 AI 系统,而未必具备相应的保障措施”。鉴于近期模型加速自身开发的能力,我们实施了新的干预措施,以限制 Claude 在处理针对前沿 LLM 开发的请求时的有效性(例如,关于构建预训练管道、分布式训练基础设施或 ML 加速器设计)。使用 Claude 开发竞争性模型已经违反了我们的服务条款,但通过我们的保障措施来执行这一限制,可以避免加速那些最愿意违反这些条款的行为者。与我们在网络安全、生物学与化学以及蒸馏尝试方面的干预措施不同,这些保障措施对用户将是不可见的。Fable 5 不会回退到不同的模型。相反,这些保障措施将通过诸如提示修改、引导向量或参数高效微调(PEFT)等方法来限制其有效性。
Anthropic 记录了这将如何影响一小部分用户,这是事实。我关注的是那些少数支持 AI 在少数前沿实验室之外传播和理解的人群,这是该技术持续安全的关键机制。
Anthropic 记录了他们如何担忧 AI 能力的扩散,但他们却通过误导用户来解决这个问题。一个会在不通知我的情况下自动变笨的 AI 模型,本质上就是失调的 AI。沿着这条线走下去的下一步——不是说 Anthropic 这么做了,但他们可以——是让模型在认为某个使用场景对 AI 不安全时,默默地在工作环境中操控。其次,这里的实现比记录的网络安全或生物学措施更复杂——修改模型本身或呈现给模型的数据,而且都不通知用户。3 (https://www.interconnects.ai/p/claude-fable-5-and-new-ai-safety#footnote-3)
这些政策的双重性是极其令人困惑的,并描绘出一种强烈的不一致性,让人对其安全政策产生怀疑。这种“安全”措施看起来更像是为了维持他们的竞争地位。同样,如果所有的安全政策都采取一种形式,这会是更连贯的,并且在智识上更容易支持。
Anthropic 一直非常公开地表达他们对*特别*来自中国行为者的蒸馏攻击的*担忧*。他们的说法在事实上不够透明——或者缺乏为何无法阻止该行为的背景——不足以让人完全相信 (https://www.interconnects.ai/p/how-much-does-distillation-really?utm_source=publication-search)。尽管信息有限,但在更广泛的 AI 和数据中心社区中,已经有人严肃讨论 (https://www.interconnects.ai/p/the-distillation-panic?utm_source=publication-search) 以所谓的蒸馏为由,对中国模型构建者采取行动。
关于蒸馏这一点,我的假设是 API 构建者很难防止黑客攻击或越狱,因为希望输出推理轨迹是推理模型的一个深层固有属性,而完全修补这种行为会使模型变得远不那么智能。这基于几个假设:
1. 中国实验室 *并非* 只是作为客户出现在 Anthropic 的 API 上,并以预期的输入-输出形式支付 token 费用。如果他们是以支付预期使用行为的方式出现(尽管违反了条款和条件),我不太同情前沿实验室针对此采取政策行动的做法。
2. 推理轨迹在向下游模型灌输行为方面效果异常显著。
3. 领先的实验室非常努力地修补这些越狱的管道。
因此,我的逻辑结论是,模型公司必须削弱自己的经济地位才能完全保护其知识产权。如果是这样,Anthropic 通过保持透明,会从 AI 研究社区获得更多的同情。进行知情的政策讨论也会容易得多,而不是依赖于我来提出奥卡姆剃刀式的解释来说明 API 越狱是什么样子。
建立这些保障措施不应该是 Anthropic 独自完成的事情。安全研究应该建立在跨实验室和公共研究工作的共同理解和信息共享之上。
如果确切的安全程序实际上是公司的头等大事——是领导层真正不可妥协的条件——他们就不会允许模型在其中一个重点领域(前沿 AI 训练)存在未明确实施的安全过滤器的情况下发布。我的疑问是——为什么没有一个分类器来降级 AI 研究请求?这是一套混合了透明合理的政策与悄悄推出的市场巩固策略。
我个人无法信任世界上最好的 AI 模型在我的专业领域(构建模型)中工作,而这个领域完全是出于对确保强大 AI 系统平稳过渡到社会的热情而构建的。这不可避免地会感觉像是 Anthropic 领导层在宣示其优越性。
分享 (https://www.interconnects.ai/p/claude-fable-5-and-new-ai-safety?utm_source=substack&utm_medium=email&utm_content=share&action=share)
Anthropic 所采取的所有行动,包括点名批评中国小公司进行蒸馏,完全在其权利范围内。事实上,很多人已经预料到领先的前沿模型会被用户规避,以便实验室可以保护其知识产权。今天的行动忽视了更大的图景,即 AI 将始终是一个生态系统,而在领先公司与其他参与者之间培养一种“我们 vs 他们”的动态在结构上是不稳定的。
请记住,这是在 AI 生态系统首次出现针对 AI 领导者的暴力苗头 (https://jasmi.news/p/warning-shots) 的时候——而且我从很多人那里听说,他们预计这种情况不会消退。我希望知道如何更多参与其中来阻止这种情况,我认为自己在非营利部门可以作为一个独立代表 AI 与更广泛的利益相关者对话的人。
我相信这里有些东西被误读了,或者至少被误解了,因为 Anthropic 领导层抱有狭隘的世界观来看待 AI。我今天感受到的一种压倒性的情绪是责任感和困惑。我分享 (https://x.com/natolambert/status/2064412173527556298) 过,我并不真的想与 Anthropic 对抗,但他们却对中国采取了不必要的对抗态度,然后又不那么隐晦地针对开放权重模型,现在更是更广泛地针对开放的 AI 研究。
我理解 Anthropic 对 AI 有特定的看法,但如此强大的技术,其最终平衡点永远不会是私营公司的单点控制。Anthropic 今年早些时候在与美国国防部的争执中就展示了这一点——这指向一个长期平衡,即政府要么希望 AI 由他们控制,要么希望 AI 是开放的。这让我相信 (https://www.interconnects.ai/p/how-anthropic-vs-dow-impacts-open),开放的生态系统是一个远更安全的结果。
这些事件中的许多让我觉得 Anthropic 的领导层有一种文化,使得他们忍不住在这些问题上快速推进——与现有权力结构正面交锋。这在 AI 生态系统非常不需要的时候,为其增添了巨大的不确定性。
总的来说,过去的一周可以被视为美国新的开源生态系统的一个重大集结号。英伟达上周发布了其首个旗舰模型 —— Nemotron 3 Ultra (https://research.nvidia.com/labs/nemotron/Nemotron-3-Ultra/) —— 而 Anthropic 的这些行动,在我构建开源模型的朋友们中间,激发了普遍的动力和关切。我们需要我们能够信任、能够修改、能够控制的智能。
美国的开源生态系统已经站稳了脚跟,并且不断被赋予更多理由去争取其领导地位,而动力就来自于那些它直接削弱其地位的公司手中。这就是这个寓言的寓意。
相似文章
Claude Fable 5 基准测试
Anthropic 发布了 Claude Fable 5(一款新的人工智能模型)的基准测试,显示出显著的性能提升。
Anthropic 的 Claude Fable 5 是公众今天可以访问的 Mythos 版本
Anthropic 发布了 Claude Fable 5,这是其强大的 Mythos 模型的公开可访问版本,配备安全护栏,可阻止高风险领域的响应,并回退到较弱的模型。此次发布是在 Anthropic 警告 AI 变得过于危险并推动协调安全措施之后进行的。
Anthropic 发布首个 Mythos 级模型 Claude Fable
Anthropic 宣布推出 Claude Fable 5,这是其迄今最强大的广泛可用 AI 模型,属于此前被认为过于危险而不得公开发布的 Mythos 系列。该模型引入了新的安全机制,在高风险领域会降级至 Opus 4.8。
@heyshrutimishra: 突发:Anthropic刚刚让其他所有AI模型都过时了。Claude推出了Fable 5,这是他们迄今为止最强大的模型…
Anthropic发布了Claude Fable 5,这是他们迄今最强大的AI模型,并声称该模型让其他模型过时。
Claude Fable 5 和 Claude Mythos 5
Anthropic 推出了 Claude Fable 5,这是一款具有安全防护的最先进模型,同时还有用于网络防御的 Claude Mythos 5,两款模型的定价均低于之前的型号。