Anthropic 称这些话题太危险，不让其 Fable 5 模型谈论

Ars Technica 2026/06/09 19:20 模型

anthropic claude-fable-5 ai-safety safeguards cybersecurity model-release

摘要

Anthropic 发布了 Claude Fable 5，这是其最新的人工智能模型，具有严格的基于话题的安全措施，防止它回答关于网络安全、生物学和化学等危险主题的查询；该模型可能会偶尔拒绝无害请求，但旨在防止恶意使用。

Anthropic 于周二<a href="https://www.anthropic.com/news/claude-fable-5-mythos-5">公开发布了 Claude Fable 5</a>，这是其首个“Mythos 级”模型，据称在整体能力上超越了之前的 frontier Opus 模型。但该模型今天的发布附带了一些安全措施，旨在防止它回答关于网络安全、生物学和化学等主题的查询，而该公司此前已<a href="https://arstechnica.com/ai/2026/04/anthropic-limits-access-to-mythos-its-new-cybersecurity-ai-model/">公开担忧过</a>其可能对恶意行为者产生“提升”作用的影响。 Anthropic 表示 Fable 5 与 Mythos 5 基于“相同的基础模型”，而 Mythos 5 今天刚结束其长达数月的“Mythos 预览阶段”<a href="https://arstechnica.com/ai/2026/04/mozilla-anthropics-mythos-found-271-zero-day-vulnerabilities-in-firefox-150/">（详见报道）</a>，但仅面向通过<a href="https://www.anthropic.com/glasswing">现有 Project Glasswing</a> 评估为可信的“一小群网络防御者”。不过，与 Mythos 5 不同，可公开访问的 Fable 5 设计将某些敏感话题的查询转交至较早的 Claude Opus 4.8 模型，并在发生这种情况时提醒用户。 <img width="2600" height="2870" src="https://cdn.arstechnica.net/wp-content/uploads/2026/06/fable5bench.webp" class="fullwidth full" alt="" decoding="async" loading="lazy" srcset="https://cdn.arstechnica.net/wp-content/uploads/2026/06/fable5bench.webp 2600w, https://cdn.arstechnica.net/wp-content/uploads/2026/06/fable5bench-640x706.webp 640w, https://cdn.arstechnica.net/wp-content/uploads/2026/06/fable5bench-1024x1130.webp 1024w, https://cdn.arstechnica.net/wp-content/uploads/2026/06/fable5bench-768x848.webp 768w, https://cdn.arstechnica.net/wp-content/uploads/2026/06/fable5bench-1391x1536.webp 1391w, https://cdn.arstechnica.net/wp-content/uploads/2026/06/fable5bench-1855x2048.webp 1855w, https://cdn.arstechnica.net/wp-content/uploads/2026/06/fable5bench-980x1082.webp 980w, https://cdn.arstechnica.net/wp-content/uploads/2026/06/fable5bench-1440x1590.webp 1440w" sizes="auto, (max-width: 2600px) 100vw, 2600px"> 在 Fable 5 众多声称的基准测试改进中，与网络安全相关的改进幅度特别大。图片来源： <a href="https://www.anthropic.com/news/claude-fable-5-mythos-5" target="_blank">Anthropic</a> Anthropic 表示，这些安全措施被调校得“比理想状态更严格”，这意味着系统可能会偶尔拒绝“无害请求”，他们承认这可能会让普通用户感到沮丧。但 Anthropic 称，在测试中，这种误报出现在不到 5% 的会话中，并且值得这样做，以避免 Mythos 为恶意行为者提供“来自其他来源无法获得的、造成严重伤害”的协助。<a href="https://arstechnica.com/ai/2026/06/anthropic-says-these-topics-are-too-dangerous-to-let-its-fable-5-model-talk-about/">阅读全文</a> <a href="https://arstechnica.com/ai/2026/06/anthropic-says-these-topics-are-too-dangerous-to-let-its-fable-5-model-talk-about/#comments">评论</a>

查看原文

查看缓存全文

缓存时间: 2026/06/10 00:18

# Anthropic称这些话题太过危险，禁止其Fable 5模型讨论来源：https://arstechnica.com/ai/2026/06/anthropic-says-these-topics-are-too-dangerous-to-let-its-fable-5-model-talk-about/ Anthropic周二公开发布了Claude Fable 5 (https://www.anthropic.com/news/claude-fable-5-mythos-5)，这是其首款"Mythos级"模型，据称在整体能力上超越了之前的Opus前沿模型。但该模型今天上线时附带了一系列安全防护措施，旨在阻止其回答关于网络安全、生物学和化学等主题的查询——这些领域Anthropic曾公开担忧其可能对恶意行为者产生"提升"影响 (https://arstechnica.com/ai/2026/04/anthropic-limits-access-to-mythos-its-new-cybersecurity-ai-model/)。 Anthropic表示Fable 5与Mythos 5基于"相同的底层模型"，而Mythos 5在经历了长达数月的"Mythos预览"期 (https://arstechnica.com/ai/2026/04/mozilla-anthropics-mythos-found-271-zero-day-vulnerabilities-in-firefox-150/)后于今天推出，但仅面向通过现有Project Glasswing (https://www.anthropic.com/glasswing) 认定为值得信赖的"一小群网络防御者"。不过，与Mythos 5不同的是，面向公众的Fable 5会将某些敏感话题的查询导向早期的Claude Opus 4.8模型，并在发生时向用户发出警告。 [](https://cdn.arstechnica.net/wp-content/uploads/2026/06/fable5bench.webp) Fable 5众多声明中的基准测试改进里，网络安全相关项出现了特别大的跃升。 Fable 5众多声明中的基准测试改进里，网络安全相关项出现了特别大的跃升。图片来源：Anthropic (https://www.anthropic.com/news/claude-fable-5-mythos-5) Anthropic表示，这些安全防护措施已调整为"比理想情况更严格"，这意味着系统偶尔会拒绝"无害的请求"，他们承认这可能会让普通用户感到沮丧。但Anthropic称，此类误报在测试中占比低于所有会话的5%，并且为了阻止Mythos为恶意行为者提供"从其他来源无法获得的、造成严重伤害的协助"，这种代价是值得的。 ## 我无法让你这样做，Dave Fable 5基于主题的安全防护构建于一个分类器系统 (https://www.anthropic.com/research/next-generation-constitutional-classifiers)之上，旨在广泛检测被禁止的提示主题以及任何潜在的越狱尝试。在超过1000小时的漏洞赏金计划红队测试中，Anthropic表示外部团队未能找到任何针对Fable 5的通用越狱方法。新模型抵抗自动化越狱尝试的程度也远超之前的Claude Opus模型。该公司表示，他们尤其担心Mythos 5执行"智能体黑客攻击"的能力——即比早期模型更轻松地执行多步骤网络攻击。但英国AI安全研究院近几个月的测试发现，Mythos预览版在一系列"夺旗"挑战中 (https://arstechnica.com/ai/2026/05/amid-mythos-hyped-cybersecurity-prowess-researchers-find-gpt-5-5-is-just-as-good/) 表现与OpenAI的GPT-5.5相当，这表明Mythos的性能并非"某一模型独有的突破"。

Anthropic 称这些话题太危险，不让其 Fable 5 模型谈论

相似文章

Claude Fable 无法回答基础生物学问题

Anthropic 的 Claude Fable 5 是公众今天可以访问的 Mythos 版本

如果Claude Fable停止帮助你，你永远不会知道

美国禁止Anthropic发布Fable 5，但数字似乎并不在意

“危险的”人工智能模型无论如何都会到来

提交意见反馈