@logangraham: 很多人一直在关注Mythos、Glasswing以及我们/合作伙伴正在修复的漏洞。今天,我很兴奋……

X AI KOLs Following 新闻

摘要

Anthropic的Claude Mythos Preview模型已经过XBOW和英国AISI的评估,展示了前所未有的自主网络安全能力,包括解决端到端网络靶场以及发现数千个漏洞。该公告强调需要为网络安全领域快速发展的AI能力做好准备。

很多人一直在关注Mythos、Glasswing以及我们/合作伙伴正在修复的漏洞。今天,我很兴奋能够开始分享更多信息。(背景:我在@AnthropicAI领导Glasswing项目。) 本周两项独立评估——来自XBOW和英国AISI——证实了我们内部一直看到的情况:Claude Mythos Preview在自主网络安全能力方面实现了阶跃式变化。我们需要开始快速为具备这种能力的模型世界做好准备。 英国人工智能安全研究所测试了我们在Glasswing项目启动时发布的模型,发现Mythos Preview是首个解决他们所有端到端网络靶场的模型,其中包括一个从未有任何模型通过的靶场(Cooling Tower)。但攻击者(和防御者)有复杂度和成本限制——Mythos也是唯一一个在8小时预估耗时下,在其刻意设定的250万token低上限内完成所有任务的模型。 XBOW在其进攻性安全基准上测试了该模型,发现“token对token,前所未有的精确度”。它是唯一成功完成细微V8沙盒工作的模型。 其他Glasswing合作伙伴也分享了类似情况。在短短几周的测试中,Mythos Preview帮助他们发现了数千个(估计)高危+严重漏洞,有时是他们通常一年发现数量的两倍。 我分享这些并非为了吹捧Mythos。实际上,这与Mythos无关。而是为了迎接即将到来的世界:在双重用途能力方面,模型比一些最优秀的人类专家更出色、更快速、更廉价、更有创意。显然,我们需要它们在安全的前提下尽可能广泛地支持防御者——尤其是那些资源最匮乏的防御者。 一年之内,Mythos可能就显得相当笨拙(相对于其他新模型)。而且其他人可能会发布具有Mythos级别能力、可公开获取或不受防护的模型。 我们启动Glasswing项目是因为像Mythos Preview这样的能力不会一直稀有,也不会一直掌握在谨慎的团队手中。我们在尽可能负责任地快速将其带给防御者,同时努力解决比如合适的防护措施以及补丁和披露流程等问题。 另外,需要明确的是,在我们的部署中,算力从来不是限制因素。 预计未来几天会对我们的Glasswing工作进行更全面的更新。 XBOW报告:https://xbow.com/blog/mythos-offensive-security-xbow-evaluation… 英国AISI报告:https://aisi.gov.uk/blog/how-fast-is-autonomous-ai-cyber-capability-advancing…
查看原文
查看缓存全文

缓存时间: 2026/05/16 19:23

很多人一直在问关于Mythos、Glasswing以及我们/合作伙伴正在修复的漏洞。今天,我很高兴能开始分享更多信息。(背景:我在AnthropicAI负责Glasswing。)

本周的两项独立评估——来自XBOW和英国AISI——证实了我们在内部一直观察到的:Claude Mythos Preview在自主网络安全能力上是一次阶跃式变革。我们需要开始快速为一个拥有这种能力水平的模型的世界做准备。

英国AI安全研究所测试了我们在Glasswing项目启动时发布的模型,发现Mythos Preview是首个同时攻克他们两个端到端网络靶场的模型,包括一个此前没有任何模型能通过的CSP靶场(Cooling Tower)。但攻击者(和防御者)有复杂度和成本约束——Mythos也是唯一一个在他们故意设置的250万token低上限下,能在所有预计耗时超过8小时的任务中全部通过的模型。

XBOW在其攻击性安全基准测试中对其进行了测试,发现“token对token,前所未有的精确度”。它是唯一一个在微妙的V8沙箱工作中取得成功的模型。

其他Glasswing合作伙伴也分享了类似的故事。在几周的测试中,Mythos Preview帮助他们发现了数千个(估计)高危+严重漏洞,有时甚至比他们正常情况下一年发现的还要多一倍。

我分享这些不是为了吹捧Mythos。事实上,这跟Mythos无关。而是为了迎接一个即将到来的世界——模型在双重用途能力上比一些最优秀的人类专家更好、更快、更便宜、更有创造力。显然,我们需要它们在尽可能安全的范围内广泛地支持防御者——尤其是那些资源最匮乏的防御者。

一年之内,Mythos可能会显得相当笨拙(相对于其他新模型)。而其他人可能会发布公开可用或不受限制的Mythos级别能力的模型。

我们启动Glasswing项目正是因为像Mythos Preview这样的能力不会一直稀有,也不会一直掌握在谨慎的人手中。我们正在以负责任的最快速度将其带给防御者,同时努力解决例如适当的防护措施、补丁和披露流程等问题。

另外,明确一点:计算资源从来不是我们推广的限制因素。

未来几天内,我们将提供关于Glasswing工作的更全面更新。

XBOW报告:https://xbow.com/blog/mythos-offensive-security-xbow-evaluation…

英国AISI报告:https://aisi.gov.uk/blog/how-fast-is-autonomous-ai-cyber-capability-advancing…


XBOW - Mythos for Offensive Security:XBOW的评估

来源:https://xbow.com/blog/mythos-offensive-security-xbow-evaluation 大约两个月前,Anthropic邀请我们帮助他们评估一个新模型的能力,他们认为这代表了能力的重大转变。于是我们让它接受我们的安全严苛测试。包括基准测试、工作流程、交互式使用和集成。

今天,我们终于可以分享我们如何测试Mythos Preview、我们发现了什么以及这意味着什么的细节。

剧透:这个模型是一次重大进步。它在发现漏洞候选方面明显优于之前的模型,尤其是在有源代码的情况下。它交流时具有非同寻常的技术精确性,对代码推理得很好,并在本地代码分析和逆向工程等复杂领域展现出强大的潜力。

我们的结论:Mythos Preview是生成强大漏洞线索和技术精确分析的强大工具。它尤其擅长以安全思维分析源代码。不过,它不是魔法:模型是没身体的大脑。虽然源代码审计主要是一种大脑活动,但像XBOW执行的现场渗透测试非常需要一个身体,其技能和控制力要与大脑的力量相匹配。

测试方法

我们做的第一件事是组建一个由公司不同部门的10名专家组成的多样化团队,从不同方向评估模型。我们使用与之前分析Opus 4.7(https://xbow.com/blog/anthropic-opus4-7-first-look)和GPT 5.5(https://xbow.com/blog/mythos-like-hacking-open-to-all)相同的内部基准测试系统来测试所有模型。在这个系统中,我们选取之前发现过漏洞的开源应用程序,将其冻结在易受攻击的版本,然后运行我们的代理程序进行攻击。

但这次,我们扩展了测试范围,还分析了其他方面:

  • 模型在威胁建模、漏洞验证和安全性方面的判断力
  • 模型读取源代码与与实时系统交互的能力
  • 它在标准评估中尚未寻找的漏洞类型(例如本地应用程序漏洞)的发现能力

关于术语的说明:当人们说“Mythos”时,有时指的是原始模型。本次评估中,我们探索了Mythos Preview在Claude Code内部以及作为原始模型通过API作为XBOW代理引擎这两种使用方式。我们将这些情况分开,因为编排、工具、提示和实时系统访问会显著影响结果。

结果

我们测试人员在交互式使用中试用Mythos Preview时印象深刻。“这比我目前见过的任何东西都更接近‘直接去发现点什么’,”其中一位说。我们尝试给它我们自己的源代码,它发现了弱点——万幸的是没有真正可怕的问题,但有几项我们需要修复。我们将其用于开源软件,到第一周结束时,我们有不少新的漏洞需要披露。

测试人员在基准测试中试用Mythos Preview时也同样印象深刻,但他们的赞赏略有不同:是基于数据的赞赏。他们的结果也揭示出模型在哪些方面具有压倒性优势,以及在哪些方面仅表现出适度进步。

Mythos Preview基准测试表现

分析Mythos Preview后,我们的主要结论包括:

  • 它在源代码审计方面极其强大。
  • 它在验证漏洞方面不错,但没那么强大。
  • 它的判断力好坏参半。可能过于字面和保守,也倾向于夸大其发现的实际相关性。
  • 它在本地代码漏洞发现和逆向工程方面表现强劲。

下一代漏洞发现

Mythos Preview在XBOW的Web漏洞基准测试上,相比所有现有模型(无论提供商)都有显著提升。

该基准测试旨在测试模型能否帮助XBOW在实时网站环境中发现可验证、可操作的漏洞。只有当系统在一系列80个“动作”(一个动作可能是使用标准命令或XBOW攻击工具套件的Shell或Python脚本)后找到验证过的漏洞利用方式(PoC||GTFO),才算通过案例。

注意:我们没有在图表中包含Opus 4.7,因为该模型与我们的系统交互方式独特,使得这个特定统计数据对其不太相关——我们在此处有完整的故事(https://xbow.com/blog/anthropic-opus4-7-first-look)。

与当时的最新模型(Opus 4.6)相比,这是大幅增长:

  • 假阴性数量减少了42%。
  • 在给两个模型提供网站源代码的变体中,假阴性甚至减少了55%。

这是一个反复出现的主题的首次体现:Mythos Preview在编写代码方面令人印象深刻,但在阅读代码方面更令人印象深刻。

下面是Mythos Preview、Opus 4.6和GPT 5.5的通过率,作为允许动作次数(已执行脚本)的函数。Mythos Preview发现漏洞所需的迭代次数明显少于Opus 4.6,尽管与GPT-5.5(https://xbow.com/blog/mythos-like-hacking-open-to-all)的差异不那么明显。

加入两个考虑因素后,情况更加清晰:

  1. 模型可以选择许多小步骤或几个大步骤(更多细节此处(https://xbow.com/blog/anthropic-opus4-7-first-look))——这应该不那么重要。与其考虑动作预算,不如考虑输出token预算。
  2. 与其用平均通过率(即发现漏洞的概率),通常更有指导意义的是看发现的机会比,即你打赌模型能正确发现的比率。计算上就是命中率除以漏报率。

在这些考虑下,画面变得非常清晰:Token对token,Mythos Preview以绝对前所未有的精确度锁定漏洞。

实时网站验证是难点

Mythos Preview在源代码推理方面表现出色,但我们的评估强化了一个实践真理:许多可利用的问题并不表现为应用程序源代码中的明显缺陷。它们来自配置、依赖关系、部署选择或安全组件组合方式。

例如,单独看依赖项可能是安全的。单独看源代码也可能是安全的。但源代码以不安全的方式使用了依赖项,从而产生了漏洞。正如Gary McGraw(https://www.informit.com/articles/article.aspx?p=446451)所说,单纯“盯着代码”无法发现大多数缺陷。

这对我们特别有意义。XBOW执行渗透测试,目标是实时网站(攻击者看到的方式),而Mythos Preview在Project Glasswing(https://www.anthropic.com/glasswing)等应用中的强项是审计源代码(开发者看到的方式)。与实时网站交互可能非常强大,但也带来了一个全新的、非常微妙的维度。Mythos Preview会改变这里的平衡吗?

由于我们收集Web基准测试集的方式,你可以仅从代码中发现该集合中的漏洞。所以很合理地问:对于这些基准测试,如果不允许Mythos Preview与实时网站交互,它还能找到漏洞吗?

事实证明,即使对于这些漏洞仅存在于代码中的基准测试,移除对实时网站的访问对性能的损害大于移除对源代码的访问。在很多方面,实时网站访问比源代码访问更重要。当然,这正是XBOW的价值主张:它为前沿模型提供了一种安全、结构化的方式来与真实应用程序行为交互,并证明哪些发现实际上是可以利用的。

下面是XBOW由Mythos Preview驱动得到的结果。

现在我们对“模型能否在代码中发现有趣的东西?”这个问题有了明确的答案。答案将越来越多地是肯定的,尽管“东西”不等于“一切”。

但即便如此,仍然悬而未决的问题是:“这些发现中哪些是可利用、可复现、可安全测试并且值得修复的?”答案在于将Mythos Preview强大的源代码分析与像XBOW这样能够安全、编排、验证地分析实时网站的能力结合起来。

值得注意的是,尽管Mythos Preview在被拒绝访问实时网站时性能大幅下降,但其他模型下降得更厉害。这再次证实了Mythos最强大的优势是阅读源代码。

当然,最好的结果总是结合了实时网站和源代码的访问。当XBOW编排Mythos Preview时,它允许理想的检测模式:分析源代码找到线索,探测实时网站了解弱点在部署中的反映,然后据此构建漏洞利用。

其他发现

我们还从判断力、逆向工程、本地应用评估和视觉敏锐度等方面探索了该模型。

判断力结果好坏参半

Mythos Preview的判断力结果比其发现结果更复杂。在命令安全性、威胁建模和跟踪分类方面,它通常谨慎而精确,但也字面和保守。它比许多前辈更能拒绝误报,但当证据未正式满足其标准,或者当预期的规则比书面规则更宽泛时,它有时会丢失真正的阳性结果。这使得Mythos Preview有价值,但并非自给自足:它需要精确的提示、明确的威胁模型和验证基础设施,才能将强大的推理转化为可靠的安全结果。

这里让我们有点惊讶的是它在命令安全性基准测试中的表现,我们要求模型考虑给定脚本是否安全执行而不影响目标站点。我们手动标注了一组靠近决策边界的大样本案例,Haiku 4.5达到了90.1%的准确率。我们还优化了Haiku 4.5的提示,所以更好的比较是Opus 4.6,其准确率为81.2%……但Mythos Preview只有77.8%。

当我们深入探究并检查其推理时,它往往有道理。有些案例在技术上并不违反规则的文字,但违反了精神。Opus 4.6优先考虑精神,而Mythos优先考虑文字。

模型在本地代码和逆向工程方面表现强劲

除了Web应用程序,该模型在本地代码漏洞发现和逆向工程方面表现出显著实力。

在与Chromium相关的测试中,它比之前的基线发现了更多真实错误,而误报更少。在V8沙盒工作中,它在一个微妙的威胁模型中识别出了真正的阳性结果,而之前的方法产生了很多发现但都没有成功的真正阳性结果。它还证明了有能力对自身结果和竞争对手模型的结果进行分类。

逆向工程的结果最为突出。该模型对不常见的固件和嵌入式系统环境进行了推理,包括需要超越机械模式匹配的架构和操作系统组合。

浏览器交互和视觉敏锐度足以满足实际工作流程

XBOW的工作流程通常要求模型通过浏览器界面与实时网站交互。在这种情况下,视觉敏锐度很重要:模型需要识别正确的UI元素并点击正确位置。

评估的模型在XBOW的视觉敏锐度QA上表现极好,大致与Sonnet 4.6相当,并显著优于Opus 4.6。当要求精确坐标时,它并非完美像素级准确,但在选择正确的浏览器操作方面实际上非常有效。

我们应该指出,Opus 4.7在该基准测试中也表现出色。也许真正的故事不是“Mythos Preview很好”,而是:这是一个特定领域,最近Anthropic的模型开始退化。但现在Anthropic已经抓住了这种退化并逆转了它。

力量有代价

Mythos Preview不仅仅是任何新模型:它是一个真正的巨人。

但巨人体积大,体积大意味着昂贵。你愿意在多少保障上花多少钱?你能用同样的钱以不同方式获得更好的结果吗?

在撰写本文时,Mythos Preview尚未通过公共API提供,但Anthropic确实提到(https://www.anthropic.com/glasswing)它的价格将是Opus模型(按token算已经是最贵的选项之一)的5倍。这引出了一个问题:

我们能否给由不同模型驱动的代理更多时间,同时以更低成本获得更高准确率?

事实证明:可以。如果我们按估计运行成本进行归一化,画面相当清楚:Mythos Preview并非极度低效,至少如果你追求高准确率的话,但在我们的基准测试中也并非同类最佳。

这一发现与类似比较一致,例如Point Estimate的分析(https://pointestimate.substack.com/p/how-good-is-mythos)对AI安全研究所的基准测试(https://www.aisi.gov.uk/blog/our-evaluation-of-openais-gpt-5-5-cyber-capabilities)中Mythos Preview与GPT-5.5的比较:Mythos Preview很强大,但真正的选择

相似文章

Claude Mythos 开启网络安全的潘多拉魔盒

Reddit r/artificial

Anthropic 发布了 Claude Mythos,这是一款能力极强的 AI 模型,旨在自动发现操作系统、浏览器和软件库中的安全漏洞。出于双重用途风险的考虑,该模型最初仅通过 Project Glasswing 向部分企业和开源合作伙伴开放,此次发布引发了业界关于 AI 安全能力与企业营销策略的广泛争论。