@logangraham: 很多人一直在关注Mythos、Glasswing以及我们/合作伙伴正在修复的漏洞。今天，我很兴奋……

X AI KOLs Following 2026/05/13 17:23 新闻

anthropic cybersecurity ai-safety model-evaluation autonomous-cyber offensive-security defensive-capabilities

摘要

Anthropic的Claude Mythos Preview模型已经过XBOW和英国AISI的评估，展示了前所未有的自主网络安全能力，包括解决端到端网络靶场以及发现数千个漏洞。该公告强调需要为网络安全领域快速发展的AI能力做好准备。

很多人一直在关注Mythos、Glasswing以及我们/合作伙伴正在修复的漏洞。今天，我很兴奋能够开始分享更多信息。（背景：我在@AnthropicAI领导Glasswing项目。）本周两项独立评估——来自XBOW和英国AISI——证实了我们内部一直看到的情况：Claude Mythos Preview在自主网络安全能力方面实现了阶跃式变化。我们需要开始快速为具备这种能力的模型世界做好准备。英国人工智能安全研究所测试了我们在Glasswing项目启动时发布的模型，发现Mythos Preview是首个解决他们所有端到端网络靶场的模型，其中包括一个从未有任何模型通过的靶场（Cooling Tower）。但攻击者（和防御者）有复杂度和成本限制——Mythos也是唯一一个在8小时预估耗时下，在其刻意设定的250万token低上限内完成所有任务的模型。 XBOW在其进攻性安全基准上测试了该模型，发现“token对token，前所未有的精确度”。它是唯一成功完成细微V8沙盒工作的模型。其他Glasswing合作伙伴也分享了类似情况。在短短几周的测试中，Mythos Preview帮助他们发现了数千个（估计）高危+严重漏洞，有时是他们通常一年发现数量的两倍。我分享这些并非为了吹捧Mythos。实际上，这与Mythos无关。而是为了迎接即将到来的世界：在双重用途能力方面，模型比一些最优秀的人类专家更出色、更快速、更廉价、更有创意。显然，我们需要它们在安全的前提下尽可能广泛地支持防御者——尤其是那些资源最匮乏的防御者。一年之内，Mythos可能就显得相当笨拙（相对于其他新模型）。而且其他人可能会发布具有Mythos级别能力、可公开获取或不受防护的模型。我们启动Glasswing项目是因为像Mythos Preview这样的能力不会一直稀有，也不会一直掌握在谨慎的团队手中。我们在尽可能负责任地快速将其带给防御者，同时努力解决比如合适的防护措施以及补丁和披露流程等问题。另外，需要明确的是，在我们的部署中，算力从来不是限制因素。预计未来几天会对我们的Glasswing工作进行更全面的更新。 XBOW报告：https://xbow.com/blog/mythos-offensive-security-xbow-evaluation… 英国AISI报告：https://aisi.gov.uk/blog/how-fast-is-autonomous-ai-cyber-capability-advancing…

查看原文

查看缓存全文

缓存时间: 2026/05/16 19:23

很多人一直在问关于Mythos、Glasswing以及我们/合作伙伴正在修复的漏洞。今天，我很高兴能开始分享更多信息。（背景：我在AnthropicAI负责Glasswing。）

本周的两项独立评估——来自XBOW和英国AISI——证实了我们在内部一直观察到的：Claude Mythos Preview在自主网络安全能力上是一次阶跃式变革。我们需要开始快速为一个拥有这种能力水平的模型的世界做准备。

英国AI安全研究所测试了我们在Glasswing项目启动时发布的模型，发现Mythos Preview是首个同时攻克他们两个端到端网络靶场的模型，包括一个此前没有任何模型能通过的CSP靶场（Cooling Tower）。但攻击者（和防御者）有复杂度和成本约束——Mythos也是唯一一个在他们故意设置的250万token低上限下，能在所有预计耗时超过8小时的任务中全部通过的模型。

XBOW在其攻击性安全基准测试中对其进行了测试，发现“token对token，前所未有的精确度”。它是唯一一个在微妙的V8沙箱工作中取得成功的模型。

其他Glasswing合作伙伴也分享了类似的故事。在几周的测试中，Mythos Preview帮助他们发现了数千个（估计）高危+严重漏洞，有时甚至比他们正常情况下一年发现的还要多一倍。

我分享这些不是为了吹捧Mythos。事实上，这跟Mythos无关。而是为了迎接一个即将到来的世界——模型在双重用途能力上比一些最优秀的人类专家更好、更快、更便宜、更有创造力。显然，我们需要它们在尽可能安全的范围内广泛地支持防御者——尤其是那些资源最匮乏的防御者。

一年之内，Mythos可能会显得相当笨拙（相对于其他新模型）。而其他人可能会发布公开可用或不受限制的Mythos级别能力的模型。

我们启动Glasswing项目正是因为像Mythos Preview这样的能力不会一直稀有，也不会一直掌握在谨慎的人手中。我们正在以负责任的最快速度将其带给防御者，同时努力解决例如适当的防护措施、补丁和披露流程等问题。

另外，明确一点：计算资源从来不是我们推广的限制因素。

未来几天内，我们将提供关于Glasswing工作的更全面更新。

XBOW报告：https://xbow.com/blog/mythos-offensive-security-xbow-evaluation…

英国AISI报告：https://aisi.gov.uk/blog/how-fast-is-autonomous-ai-cyber-capability-advancing…

XBOW - Mythos for Offensive Security：XBOW的评估

来源：https://xbow.com/blog/mythos-offensive-security-xbow-evaluation 大约两个月前，Anthropic邀请我们帮助他们评估一个新模型的能力，他们认为这代表了能力的重大转变。于是我们让它接受我们的安全严苛测试。包括基准测试、工作流程、交互式使用和集成。

今天，我们终于可以分享我们如何测试Mythos Preview、我们发现了什么以及这意味着什么的细节。

剧透：这个模型是一次重大进步。它在发现漏洞候选方面明显优于之前的模型，尤其是在有源代码的情况下。它交流时具有非同寻常的技术精确性，对代码推理得很好，并在本地代码分析和逆向工程等复杂领域展现出强大的潜力。

我们的结论：Mythos Preview是生成强大漏洞线索和技术精确分析的强大工具。它尤其擅长以安全思维分析源代码。不过，它不是魔法：模型是没身体的大脑。虽然源代码审计主要是一种大脑活动，但像XBOW执行的现场渗透测试非常需要一个身体，其技能和控制力要与大脑的力量相匹配。

测试方法

我们做的第一件事是组建一个由公司不同部门的10名专家组成的多样化团队，从不同方向评估模型。我们使用与之前分析Opus 4.7(https://xbow.com/blog/anthropic-opus4-7-first-look)和GPT 5.5(https://xbow.com/blog/mythos-like-hacking-open-to-all)相同的内部基准测试系统来测试所有模型。在这个系统中，我们选取之前发现过漏洞的开源应用程序，将其冻结在易受攻击的版本，然后运行我们的代理程序进行攻击。

但这次，我们扩展了测试范围，还分析了其他方面：

模型在威胁建模、漏洞验证和安全性方面的判断力
模型读取源代码与与实时系统交互的能力
它在标准评估中尚未寻找的漏洞类型（例如本地应用程序漏洞）的发现能力

关于术语的说明：当人们说“Mythos”时，有时指的是原始模型。本次评估中，我们探索了Mythos Preview在Claude Code内部以及作为原始模型通过API作为XBOW代理引擎这两种使用方式。我们将这些情况分开，因为编排、工具、提示和实时系统访问会显著影响结果。

结果

我们测试人员在交互式使用中试用Mythos Preview时印象深刻。“这比我目前见过的任何东西都更接近‘直接去发现点什么’，”其中一位说。我们尝试给它我们自己的源代码，它发现了弱点——万幸的是没有真正可怕的问题，但有几项我们需要修复。我们将其用于开源软件，到第一周结束时，我们有不少新的漏洞需要披露。

测试人员在基准测试中试用Mythos Preview时也同样印象深刻，但他们的赞赏略有不同：是基于数据的赞赏。他们的结果也揭示出模型在哪些方面具有压倒性优势，以及在哪些方面仅表现出适度进步。

Mythos Preview基准测试表现

分析Mythos Preview后，我们的主要结论包括：

它在源代码审计方面极其强大。
它在验证漏洞方面不错，但没那么强大。
它的判断力好坏参半。可能过于字面和保守，也倾向于夸大其发现的实际相关性。
它在本地代码漏洞发现和逆向工程方面表现强劲。

下一代漏洞发现

Mythos Preview在XBOW的Web漏洞基准测试上，相比所有现有模型（无论提供商）都有显著提升。

该基准测试旨在测试模型能否帮助XBOW在实时网站环境中发现可验证、可操作的漏洞。只有当系统在一系列80个“动作”（一个动作可能是使用标准命令或XBOW攻击工具套件的Shell或Python脚本）后找到验证过的漏洞利用方式（PoC||GTFO），才算通过案例。

注意：我们没有在图表中包含Opus 4.7，因为该模型与我们的系统交互方式独特，使得这个特定统计数据对其不太相关——我们在此处有完整的故事(https://xbow.com/blog/anthropic-opus4-7-first-look)。

与当时的最新模型（Opus 4.6）相比，这是大幅增长：

假阴性数量减少了42%。
在给两个模型提供网站源代码的变体中，假阴性甚至减少了55%。

这是一个反复出现的主题的首次体现：Mythos Preview在编写代码方面令人印象深刻，但在阅读代码方面更令人印象深刻。

下面是Mythos Preview、Opus 4.6和GPT 5.5的通过率，作为允许动作次数（已执行脚本）的函数。Mythos Preview发现漏洞所需的迭代次数明显少于Opus 4.6，尽管与GPT-5.5(https://xbow.com/blog/mythos-like-hacking-open-to-all)的差异不那么明显。

加入两个考虑因素后，情况更加清晰：

模型可以选择许多小步骤或几个大步骤（更多细节此处(https://xbow.com/blog/anthropic-opus4-7-first-look)）——这应该不那么重要。与其考虑动作预算，不如考虑输出token预算。
与其用平均通过率（即发现漏洞的概率），通常更有指导意义的是看发现的机会比，即你打赌模型能正确发现的比率。计算上就是命中率除以漏报率。

在这些考虑下，画面变得非常清晰：Token对token，Mythos Preview以绝对前所未有的精确度锁定漏洞。

实时网站验证是难点

Mythos Preview在源代码推理方面表现出色，但我们的评估强化了一个实践真理：许多可利用的问题并不表现为应用程序源代码中的明显缺陷。它们来自配置、依赖关系、部署选择或安全组件组合方式。

例如，单独看依赖项可能是安全的。单独看源代码也可能是安全的。但源代码以不安全的方式使用了依赖项，从而产生了漏洞。正如Gary McGraw(https://www.informit.com/articles/article.aspx?p=446451)所说，单纯“盯着代码”无法发现大多数缺陷。

这对我们特别有意义。XBOW执行渗透测试，目标是实时网站（攻击者看到的方式），而Mythos Preview在Project Glasswing(https://www.anthropic.com/glasswing)等应用中的强项是审计源代码（开发者看到的方式）。与实时网站交互可能非常强大，但也带来了一个全新的、非常微妙的维度。Mythos Preview会改变这里的平衡吗？

由于我们收集Web基准测试集的方式，你可以仅从代码中发现该集合中的漏洞。所以很合理地问：对于这些基准测试，如果不允许Mythos Preview与实时网站交互，它还能找到漏洞吗？

事实证明，即使对于这些漏洞仅存在于代码中的基准测试，移除对实时网站的访问对性能的损害大于移除对源代码的访问。在很多方面，实时网站访问比源代码访问更重要。当然，这正是XBOW的价值主张：它为前沿模型提供了一种安全、结构化的方式来与真实应用程序行为交互，并证明哪些发现实际上是可以利用的。

下面是XBOW由Mythos Preview驱动得到的结果。

现在我们对“模型能否在代码中发现有趣的东西？”这个问题有了明确的答案。答案将越来越多地是肯定的，尽管“东西”不等于“一切”。

但即便如此，仍然悬而未决的问题是：“这些发现中哪些是可利用、可复现、可安全测试并且值得修复的？”答案在于将Mythos Preview强大的源代码分析与像XBOW这样能够安全、编排、验证地分析实时网站的能力结合起来。

值得注意的是，尽管Mythos Preview在被拒绝访问实时网站时性能大幅下降，但其他模型下降得更厉害。这再次证实了Mythos最强大的优势是阅读源代码。

当然，最好的结果总是结合了实时网站和源代码的访问。当XBOW编排Mythos Preview时，它允许理想的检测模式：分析源代码找到线索，探测实时网站了解弱点在部署中的反映，然后据此构建漏洞利用。

其他发现

我们还从判断力、逆向工程、本地应用评估和视觉敏锐度等方面探索了该模型。

判断力结果好坏参半

Mythos Preview的判断力结果比其发现结果更复杂。在命令安全性、威胁建模和跟踪分类方面，它通常谨慎而精确，但也字面和保守。它比许多前辈更能拒绝误报，但当证据未正式满足其标准，或者当预期的规则比书面规则更宽泛时，它有时会丢失真正的阳性结果。这使得Mythos Preview有价值，但并非自给自足：它需要精确的提示、明确的威胁模型和验证基础设施，才能将强大的推理转化为可靠的安全结果。

这里让我们有点惊讶的是它在命令安全性基准测试中的表现，我们要求模型考虑给定脚本是否安全执行而不影响目标站点。我们手动标注了一组靠近决策边界的大样本案例，Haiku 4.5达到了90.1%的准确率。我们还优化了Haiku 4.5的提示，所以更好的比较是Opus 4.6，其准确率为81.2%……但Mythos Preview只有77.8%。

当我们深入探究并检查其推理时，它往往有道理。有些案例在技术上并不违反规则的文字，但违反了精神。Opus 4.6优先考虑精神，而Mythos优先考虑文字。

模型在本地代码和逆向工程方面表现强劲

除了Web应用程序，该模型在本地代码漏洞发现和逆向工程方面表现出显著实力。

在与Chromium相关的测试中，它比之前的基线发现了更多真实错误，而误报更少。在V8沙盒工作中，它在一个微妙的威胁模型中识别出了真正的阳性结果，而之前的方法产生了很多发现但都没有成功的真正阳性结果。它还证明了有能力对自身结果和竞争对手模型的结果进行分类。

逆向工程的结果最为突出。该模型对不常见的固件和嵌入式系统环境进行了推理，包括需要超越机械模式匹配的架构和操作系统组合。

浏览器交互和视觉敏锐度足以满足实际工作流程

XBOW的工作流程通常要求模型通过浏览器界面与实时网站交互。在这种情况下，视觉敏锐度很重要：模型需要识别正确的UI元素并点击正确位置。

评估的模型在XBOW的视觉敏锐度QA上表现极好，大致与Sonnet 4.6相当，并显著优于Opus 4.6。当要求精确坐标时，它并非完美像素级准确，但在选择正确的浏览器操作方面实际上非常有效。

我们应该指出，Opus 4.7在该基准测试中也表现出色。也许真正的故事不是“Mythos Preview很好”，而是：这是一个特定领域，最近Anthropic的模型开始退化。但现在Anthropic已经抓住了这种退化并逆转了它。

力量有代价

Mythos Preview不仅仅是任何新模型：它是一个真正的巨人。

但巨人体积大，体积大意味着昂贵。你愿意在多少保障上花多少钱？你能用同样的钱以不同方式获得更好的结果吗？

在撰写本文时，Mythos Preview尚未通过公共API提供，但Anthropic确实提到(https://www.anthropic.com/glasswing)它的价格将是Opus模型（按token算已经是最贵的选项之一）的5倍。这引出了一个问题：

我们能否给由不同模型驱动的代理更多时间，同时以更低成本获得更高准确率？

事实证明：可以。如果我们按估计运行成本进行归一化，画面相当清楚：Mythos Preview并非极度低效，至少如果你追求高准确率的话，但在我们的基准测试中也并非同类最佳。

这一发现与类似比较一致，例如Point Estimate的分析(https://pointestimate.substack.com/p/how-good-is-mythos)对AI安全研究所的基准测试(https://www.aisi.gov.uk/blog/our-evaluation-of-openais-gpt-5-5-cyber-capabilities)中Mythos Preview与GPT-5.5的比较：Mythos Preview很强大，但真正的选择

@logangraham: 很多人一直在关注Mythos、Glasswing以及我们/合作伙伴正在修复的漏洞。今天，我很兴奋……

XBOW - Mythos for Offensive Security：XBOW的评估

测试方法

结果

Mythos Preview基准测试表现

下一代漏洞发现

实时网站验证是难点

其他发现

判断力结果好坏参半

模型在本地代码和逆向工程方面表现强劲

浏览器交互和视觉敏锐度足以满足实际工作流程

力量有代价

相似文章

Claude Mythos 开启网络安全的潘多拉魔盒

Project Glasswing: Mythos 的启示

@TheFP：Anthropic称Mythos功能强大，公司正在放缓其发布。我们问了Jared Kaplan为什么。

Anthropic 为 Claude Code 和 Claude Security 准备 Mythos 1（2 分钟阅读）

Anthropic的Claude Mythos Preview模型与50家合作伙伴发现超过10,000个关键软件缺陷

提交意见反馈