Claude Mythos 开启网络安全的潘多拉魔盒

Reddit r/artificial 模型

摘要

Anthropic 发布了 Claude Mythos,这是一款能力极强的 AI 模型,旨在自动发现操作系统、浏览器和软件库中的安全漏洞。出于双重用途风险的考虑,该模型最初仅通过 Project Glasswing 向部分企业和开源合作伙伴开放,此次发布引发了业界关于 AI 安全能力与企业营销策略的广泛争论。

如果你拥有一个强大到足以入侵多个主流操作系统和浏览器的 AI 模型,你会怎么做?
查看原文
查看缓存全文

缓存时间: 2026/05/11 16:37

# Claude Mythos 打开了网络安全的潘多拉魔盒 - ShiftMag 来源:https://shiftmag.dev/claude-mythos-opens-the-cybersecurity-pandoras-box-9622/ 如果你拥有一个强大到能入侵多个主流操作系统和浏览器的 AI 模型,你会怎么做? 这正是 Anthropic 宣称其最新、最强大的模型 Claude Mythos (https://red.anthropic.com/2026/mythos-preview/) 所实现的能力。据 Anthropic 表示,该模型**过于强大,无法向公众发布**。 在公告中,Anthropic 表示其新模型在多个操作系统(Linux、OpenBSD、FreeBSD)、浏览器(Firefox)以及广泛使用的软件库(FFmpeg)中发现了安全问题。 将如此强大的工具开放给所有人(包括恶意攻击者)是不负责任的,因此 Anthropic 仅通过 Project Glasswing (https://www.anthropic.com/glasswing) **向一小部分“首发合作伙伴”**(其中包括 AWS、Apple、Google、Microsoft 和 Linux Foundation)**开放了访问权限**。其初衷是让重要机构和开源项目提前获得预警和工具,以发现更多安全问题,同时 Anthropic 也在权衡 Mythos 更大范围发布的后续计划。 ## 末日营销的精妙艺术 当然,此举也是为了炒作新模型的能力。 OpenAI 早在 GPT-2 (https://openai.com/index/better-language-models/) 时期就打过“我们的新 AI 太强大,不能交给你们”这张牌,而如今**任何人只需不到 100 美元就能训练出该模型** (https://x.com/karpathy/status/2017703360393318587)。 这一策略依然奏效。媒体 (http://(https//www.bbc.com/news/articles/crk1py1jgzko))(另一个例子 (https://www.nytimes.com/2026/04/07/technology/anthropic-claims-its-new-ai-model-mythos-is-a-cybersecurity-reckoning.html))和广大公众 (https://www.youtube.com/watch?v=SQhfkWdxVvE) 已经全盘接受了 Anthropic 的末日营销。恐惧最能带动流量,而一个能入侵任何人的 AI 简直是糟透了(或者从营销角度看,简直是棒极了)。 ## 无风不起浪…… 营销归营销,但这并不意味着它不是真的。 一段时间以来,许多安全研究人员对 AI 的网络安全能力越来越感到惊叹 (https://sockpuppet.org/blog/2026/03/30/vulnerability-research-is-cooked/)。 ## 最令人恐惧的 AI? 综合各方报道来看,Anthropic 的末日营销似乎确有几分实情。但先别慌,深呼吸一下,让我们理性地拆解一下到底发生了什么。 新模型的能力确实很强,但并没有明显迹象表明它遥遥领先于现有模型。事实上,Aisle 的研究人员让小型本地模型尝试寻找相同的漏洞 (https://aisle.com/blog/ai-cybersecurity-after-mythos-the-jagged-frontier),并取得了一定(尽管有限)的成功。他们得出结论:**最关键的是方法,而非模型能力**。 基本上,你可以让模型仔细审查代码库的每一个部分来寻找安全漏洞。AI 永远不会对枯燥的重复工作感到厌倦,并且乐于投入大量时间、消耗大量 token(和资金)来完成这项任务。如果存在可疑之处,它极有可能将其找出来。 研究人员指出,能力更强的模型表现会更好,但**要实现这些令人印象深刻的结果,并不需要惊天动地的模型能力**。 因此,一方面我们不必对 Mythos 感到恐惧。它很可能只是对前代模型的渐进式改进。另一方面,这意味着*每个人都已经能做到这一点*,而且可能已经在做了。 *现在*,你可以开始慌了。 ## GPT 加入群聊 作为进一步的佐证,就在 Mythos 发布仅一周后,OpenAI 推出了 GPT-5.4-Cyber (https://openai.com/index/scaling-trusted-access-for-cyber-defense/),这是一款专门用于网络防御的 AI 模型。 该新模型仅向“**经过验证的个人防御者**”和“**负责保护关键软件的团队**”开放,这表明开发此类工具并不需要技术上的巨大飞跃。 事实上,OpenAI 和 Anthropic 此后又分别发布了其旗舰模型的新版本:GPT-5.5 和 Claude Opus 4.7。 AI Security Institute 也对 GPT-5.5 进行了测试,并指出“GPT-5.5 表明,网络任务能力的快速提升可能是一个更普遍趋势的一部分 (https://www.aisi.gov.uk/blog/our-evaluation-of-openais-gpt-5-5-cyber-capabilities)”。 这些模型经过训练,会**拒绝与网络安全相关的请求**(除非你参与了相关计划),但中国模型在通用编码能力上仅落后几个月,且没有此类限制。 ## 我们该何去何从? 援引一位安全研究人员的话:“**漏洞研究已经彻底变天了**”。开弓没有回头箭;有动机的攻击者利用现有的 AI 工具已经能做成很多事,而未来我们只会迎来越来越强大的模型。 短期内,情况可能看起来相当糟糕:预计各类软件中将出现更多漏洞利用、黑客攻击和 Bug,从关键基础设施到针对流行软件库的供应链攻击都将难以幸免。 然而从长远来看,我认为这是一件好事:资金充裕的恶意攻击者早已囤积了大量 0-day 漏洞(未公开漏洞)。现在,**更多人将能够利用 AI 在自己的代码中发现这些问题并进行修复**,从而从整体上提升软件的安全性。 这就是为什么 Anthropic 的 Glasswing 和 OpenAI 的“Trusted Access for Cyber”计划是**良好的第一步**,尽管它们目前仅对特定参与者开放。未来,以类似方式使用开放权重(open-weights)模型,将能以低廉的成本把这些能力带给所有人。 系好安全带,这将是一段颠簸的旅程。

相似文章

Claude Mythos、ChatGPT-5.5 与网络安全

Reddit r/ArtificialInteligence

Anthropic 的 Claude Mythos 和 OpenAI 的 ChatGPT-5.5 前沿模型因其能够自主识别并利用漏洞而引发网络安全担忧。马克斯·普朗克研究所的研究人员讨论了实际风险以及欧洲在进攻性人工智能系统方面整合知识的必要性。