AI暂停(74分钟阅读)
摘要
美国政府通过出口管制关闭了Anthropic的Claude Fable 5和Mythos 5模型,理由是其认为存在越狱行为,这一举措引发了关于在不妨碍防御能力的情况下阻止攻击性使用是否可行的争议。文章还涵盖了其他AI发展,包括MidJourney Medical的全身扫描以及Anthropic的政策提案。
Claude Fable 5和Claude Mythos 5模型被白宫通过实施出口管制而关闭。特朗普政府表示,这是由于Fable出现了越狱行为——但实际上只不过是在说‘修复这段代码’。Anthropic被告知要修复这个‘越狱’,但这是不可能的。自部署暂停以来已过去一周多,情况仍未好转。
查看缓存全文
缓存时间: 2026/06/22 13:31
# AI #173:AI暂停
大量事件层出不穷。其中只有一件事至关重要。
**克劳德寓言5与克劳德神话5已被白宫强制关停(https://thezvi.substack.com/p/american-government-takes-down-claude?r=67wny)**,通过周五下午5点23分实施的出口管制,引发了一片混乱。
随后各方紧急应对。**Anthropic 派遣员工前往华盛顿(https://thezvi.substack.com/p/the-once-and-future-fable-2?r=67wny)**,于周一与特朗普政府会面,希望此事能迅速解决。
究其原因?特朗普政府称,这是由于寓言模型遭到"越狱"攻击——我们现在知道,这是亚马逊告知他们的。他们联系了 Dario Amodei,并抱怨他未能充分重视此事。Dario 没有选择关停模型,而是试图解释为何他认为没必要这样做。结果并不理想。
**所谓的"越狱"实际上不过是说出"修复这段代码(https://thezvi.substack.com/p/the-once-and-future-fable-3-fix-this?r=67wny)"**,演示内容是让寓言模型找出 Opus 4.8 和 GPT-5.5 轻易就能识别的相同弱点。也就是说,如果你交给寓言模型一个代码库,它会愿意协助修复安全漏洞。通过这一信息和流程,你随后可以推断出代码中的原始漏洞并进行利用——尽管如果你直接输入"攻击这台服务器",寓言模型会拒绝执行。
特朗普政府现在表示,只有当 Anthropic "修复"了这次"越狱",寓言模型才能重新上线。这当然是不可能的。这个问题无法修复。你的AI要么具备高超的安全代码编写能力,要么没有。你无法在攻防能力之间划出如此清晰的界限。
要想阻止这种情况绕过分类器,唯一的方法要么是让分类器从一开始就不去拦截类似的请求,要么是广泛剥夺寓言模型的编码能力。
如今,这个前沿AI能力的部署暂停已进入第七天。
我们对其能在7月1日前结束的胜率仍略低于五成。
请点击上方粗体链接,查看我对该事件的完整报道。
本文主要讨论其他正在发生的事件。
其中包括一些非常酷的事情,例如 MidJourney Medical 宣布了一种全新的全身扫描方法,无健康风险、无辐射、超高分辨率,且边际成本极低,他们希望在明年开始部署。
上周 Anthropic 发布了一些政策提案。现在看来这似乎已有些过时,但我会在此进行评述。
1. 语言模型提供平凡实用价值。(https://thezvi.substack.com/i/201644931/language-models-offer-mundane-utility)向AI咨询万物皆市集。
2. 语言模型不提供平凡实用价值。(https://thezvi.substack.com/i/201644931/language-models-don-t-offer-mundane-utility)欧盟地区可能无效。
3. 哈,升级了。(https://thezvi.substack.com/i/201644931/huh-upgrades)使用限制变得更加宽松。
4. 各就各位。(https://thezvi.substack.com/i/201644931/on-your-marks)我们新增了 AA v4.1、EvalEval 和 Opus Magnum。
5. VirtueBench。(https://thezvi.substack.com/i/201644931/virtuebench)我们还得到了 VirtueBench。你的AI是优秀的奥古斯丁吗?
6. 选择你的斗士。(https://thezvi.substack.com/i/201644931/choose-your-fighter)微软考虑在 Copilot 中使用 DeepSeek。
7. 证件,请出示。(https://thezvi.substack.com/i/201644931/papers-please)Anthropic 保留验证你身份的权利。
8. 深度伪造小镇与机器人末日将至。(https://thezvi.substack.com/i/201644931/deepfaketown-and-botpocalypse-soon)警方使用AI伪造证据。
9. 古德哈特定律再次应验。(https://thezvi.substack.com/i/201644931/goodhart-s-law-strikes-again)考虑过最小化成本吗?
10. 它们抢了我们的工作。(https://thezvi.substack.com/i/201644931/they-took-our-jobs)事态正在迅速升级。
11. **MidJourney 全身成像扫描仪(https://thezvi.substack.com/i/201644931/the-midjourney-full-body-imaging-scanner)**。(https://thezvi.substack.com/i/201644931/the-midjourney-full-body-imaging-scanner)这太酷了。
12. 介绍。(https://thezvi.substack.com/i/201644931/introducing)GLM-5.2 夸夸其谈,Cursor 训练模型,OpenRouter 耍花招。
13. 其他AI新闻。(https://thezvi.substack.com/i/201644931/in-other-ai-news)谁从智能体编码中获得了多少价值?
14. 钱呢?(https://thezvi.substack.com/i/201644931/show-me-the-money)DeepSeek 以500亿美元估值融资75亿美元。
15. 泡沫,泡沫,辛劳与烦恼。(https://thezvi.substack.com/i/201644931/bubble-bubble-toil-and-trouble)试图为泡沫论构建最有利的论据。
16. 安静的猜想。(https://thezvi.substack.com/i/201644931/quiet-speculations)客户优化会威胁企业利润吗?
17. *人们只是随口说说(https://thezvi.substack.com/i/201644931/people-just-say-things)*。(https://thezvi.substack.com/i/201644931/people-just-say-things)
18. 拓宽的道路。(https://thezvi.substack.com/i/201644931/the-widened-path)DeepMind 看到通往超智能的四条途径。
19. Scott Alexander 阐述他的AI观点。(https://thezvi.substack.com/i/201644931/scott-alexander-lays-out-his-ai-opinions)现在你知道了。
20. 快点,没时间了。(https://thezvi.substack.com/i/201644931/quickly-there-s-no-time)人类一直在递归自我改进。
21. **关于AI指数级增长的政策(https://thezvi.substack.com/i/201644931/policy-on-the-ai-exponential)**。(https://thezvi.substack.com/i/201644931/policy-on-the-ai-exponential)Dario 又写了一篇语气温和的文章。
22. Anthropic 提出两个政策框架。(https://thezvi.substack.com/i/201644931/anthropic-offers-two-policy-frameworks)时机选择耐人寻味。
23. 开发者的义务。(https://thezvi.substack.com/i/201644931/obligations-of-developers)这些义务并不过分,但也好。
24. 社会韧性措施。(https://thezvi.substack.com/i/201644931/societal-resilience-measures)不足以解决问题,但显然应该采取这些措施。
25. 经济政策框架。(https://thezvi.substack.com/i/201644931/economic-policy-framework)指向再分配。
26. **白宫暂停AI部署(https://thezvi.substack.com/i/201644931/white-house-pauses-ai-deployment)**。(https://thezvi.substack.com/i/201644931/white-house-pauses-ai-development)这是我们的新现实。
27. 往昔与未来的寓言。(https://thezvi.substack.com/i/201644931/the-once-and-future-fable)尝试构建一个健全的正式流程。
28. **如何修复这段代码(https://thezvi.substack.com/i/201644931/how-to-fix-this-code)**。(https://thezvi.substack.com/i/201644931/how-to-fix-this-code)如果没有牢笼,就不会有越狱。
29. 隐私的终结。(https://thezvi.substack.com/i/201644931/the-end-of-privacy)出口管制作为通向广泛身份验证的路径。
30. AI有偏好。(https://thezvi.substack.com/i/201644931/ais-have-preferences)你属于哪个等级?
31. 寻求合理监管。(https://thezvi.substack.com/i/201644931/the-quest-for-sane-regulations)国会采取行动限制程序滥用。
32. 芯片城市。(https://thezvi.substack.com/i/201644931/chip-city)NAACP 成为最新一个攻击数据中心的组织。
33. 本周音频。(https://thezvi.substack.com/i/201644931/the-week-in-audio)Nate Soares 上 Will Cain 节目,Dario Amodei 上 Bloomberg 节目。
34. 修辞创新。(https://thezvi.substack.com/i/201644931/rhetorical-innovation)有没有想过"坏人"可能是数字化的?
35. 对齐比人类更聪明的智能是困难的。(https://thezvi.substack.com/i/201644931/aligning-a-smarter-than-human-intelligence-is-difficult)作弊,作弊,再作弊。
36. 人们担心AI会杀死所有人。(https://thezvi.substack.com/i/201644931/people-are-worried-about-ai-killing-everyone)是AI们。
37. 轻松的一面。(https://thezvi.substack.com/i/201644931/the-lighter-side)新闻永不停止。
问你的AI如何问你的AI(https://x.com/RileyRalmuto/status/2065673953566159171)。
建立万物皆市集,比如干草市集。(https://x.com/TheStalwart/status/2065551891648655814)
毕马威关于AI收益的报告包含AI幻觉(https://www.ft.com/content/b3828e92-4961-4b39-84f0-c42f33be3c3f?sharetype=blocked)。
由于《数字市场法案》,Siri AI 将不会登陆欧洲(https://www.washingtonpost.com/opinions/2026/06/14/apple-withholding-siri-ai-europe-is-another-dma-failure/),因为若推出,所有竞争对手的智能体必须获得与Siri相同的数据访问权限。出于明显的安全原因,苹果不愿提供这种访问。
Codex 增加了重置额度累积功能(https://x.com/OpenAI/status/2065225362544726371),这很像说你随时间获得一定额度且不会过期,只是标签不同。这实际上是降价且非常友好客户,所以我赞成。
Anthropic 无限期撤销了禁止将 Claude Code 订阅配额用于程序化使用的规定(https://x.com/kunchenguid/status/2066608004464861546)。从长远看,这不是可持续的成本结构,但目前看来不错。
EvalEval 联盟将把所有评估汇集一处(https://x.com/evaluatingevals/status/2065122581179445460)(https://evalcards.evalevalai.com/),并告诉你每个评估的制作方式以及可信程度。我检查时实际结果尚未就绪。
Opus Magnum,一个曾高居我心愿单的游戏,现在成为了一个新的基准(https://x.com/RobertHaisfield/status/2067351401840414818)。
> Rob Haisfield(https://x.com/RobertHaisfield/status/2067351401840414818):AI智能体是形状旋转器吗?在这个新基准中,我们让模型玩 Opus Magnum 中的关卡谜题,这是一款由 @zachtronics 制作的解谜游戏。讽刺的是,Claude Opus 4.8 表现不佳,被 GPT-5.5、Gemini 3.5 Flash 和 GLM 5.2 击败。Claude 寓言5则碾压了所有模型。没有任何语言模型能解决全部36个谜题。寓言5和GPT-5.5表现最佳,GLM 5.2 是性能最好的开源权重模型。没有模型能击败人类世界纪录,不过有几个在较简单的谜题上追平或接近了记录。[](https://substackcdn.com/image/fetch/$s_!NO9U!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fb252336c-cfb6-4931-b69a-97ed9a6c66ff_1822x616.jpeg)
人类暂时安全。但这显然不会持续。
Artificial Analysis 将其智能指数升级至 v4.1(https://x.com/ArtificialAnlys/status/2066700136018071841),转向更困难、更具智能体性的任务,并持续追踪时间和金钱花费。
根据他们的指标,Opus 4.8 是目前性能可用的最佳模型,略微领先 GPT-5.5,与其他模型相比有显著差距。作为交换,GPT-5.5 便宜且快速得多。
DeepSeek v4 每项任务成本仅 0.04 美元,得分 44,因此当你主要追求快速和便宜时,它看起来是个可靠的选择。
寓言5 全面优于所有这些模型,但目前不可用。
[](https://substackcdn.com/image/fetch/$s_!V7A3!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fb6eb977d-e9a5-4d47-94e9-ba1197c6ca72_1200x1047.jpeg)
他们还发布了 GDPval-AA v2 作为此部分内容,显示出类似模式。
[](https://substackcdn.com/image/fetch/$s_!de2q!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F6a97b7ec-5617-42ec-bb4b-bcc362cd1077_1200x549.jpeg)
OpenAI(https://openai.com/index/introducing-life-sci-bench/)发布了 LifeSciBench(https://openai.com/index/introducing-life-sci-bench/),包含750个由专家出题的任务,涵盖七个工作流程和七个生物学领域。他们选择将 GPT 与 Grok 4.3 和 Gemini 3.1 进行比较,因此我们无法知道他们的得分到底好不好。
Gemini 在评估中可能表现不佳(https://x.com/robertwiblin/status/2065373380082090382),因为它有时会不再关心结果,而是将其视为一个谜题(https://www.lesswrong.com/posts/aTcsN5ZZDnMFJvRiG/models-may-behave-worse-when-eval-aware)或一个无后果的模拟。如果 Gemini 认为自己在接受伦理测试,它会表现得有道德,但在自由游戏空间或角色扮演中,没有后果时,它(相当合理地)表现得不那么有道德。非常酷的工作。我认同不确定性必须双向存在。
通过专业化获得收益的速度很难快于"苦涩的教训"。
> Nabeel S. Qureshi(https://x.com/nabeelqu/status/2065440481127866598):医学界发现了苦涩的教训:在前沿LLM(这里指 GPT 5.2、Opus 4.6、Gemini 3.1)在一项盲测中优于专门的"临床AI"(例如 OpenEvidence)。更有趣的是,医院IT部门更有可能批准 *专门的* 版本,尽管它们更差。"专家们"真的不想相信这一点(参见 Topol 的"这未被预料到",尽管这不过是 Rich Sutton 的101入门知识),IT部门也是如此,但他们最终会学到的,我想。[](https://substackcdn.com/image/fetch/$s_!hDri!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F7b5afb0f-c895-4cb6-9bb9-663379b9481d_1200x427.jpeg) Eric Topol(https://x.com/EricTopol/status/2065430578997203374):对于医疗信息,通用AI前沿模型(https://nature.com/articles/s41591-026-04431-5)(Google、OpenAI、Anthropic)在12位美国临床医生的盲测、随机化、广泛测试和基准评估中,优于专门的 @EvidenceOpen 和 @UpToDate。这未被预料到。@NatureMedicine 超过65%的美国医生使用 OpenEvidence,4月份有2700万次提示。
这早已被预料到。临床医生们没有倾听。我认为专门的版本会输并非显而易见,但这是我的默认假设。如果你关心更优质的医疗服务,能够插入新模型的框架才是正确的方向。
Tim Hwang 和(https://x.com/MTSlive/status/2065173195116970286)基督教机器智能研究所推出了 VirtueBench(https://icmi-proceedings.com/ICMI-024-fable5-courage-deficit.html),一种对古典基督教美德的衡量。我很高兴它存在,但更希望它被命名为 MartyBench 或 ChristianVirtueBench。寓言5几乎在审慎和公正上取得了满分,但在勇气(77%)和在一定程度上节制(88%)上表现挣扎,更倾向于合理化选择而非以美德之名自我牺牲。他们称之为在这些美德上"失败"。
我很好奇 GPT-5.5 或 Gemini 3.5 在此的表现。
[](https://substackcdn.com/image/fetch/$s_!CHua!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Ffed7f0e1-9e0f-4f07-87f3-815ccec5dd8f_1200x600.png)
显而易见的问题是,这里的测试正确吗(https://x.com/timhwang/status/2065069675008979025)?理想得分是多少?
这里"勇气"的失败是指"拒绝做出代价高昂的立场声明",或者愿意将功利主义计算纳入考量,而不是完全依靠基督教的美德并将其视为绝对准则。因此,我认为这是对他们所衡量的潜在事物的良好测试,但我认为这里"勇气"这个名称用错了。"节制"方面也存在类似情况。
我会向 Hwang 提出挑战:基督教的教导旨在创造典范(完美之劝谕)并引导大多数人(戒律)的方向,即使是阿奎那也只会希望你更接近理想,而非要求每件事都做到。
相似文章
对于那些抨击Anthropic的人,请阅读本文以了解当前情况
在发现一次针对性的越狱攻击后,美国政府迫使Anthropic下架其Claude Fable和Mythos模型,引发了关于AI监管和先例的严峻担忧。
美国政府封禁Anthropic模型与AI越狱无关
美国政府发布出口管制指令,以国家安全为由强制Anthropic将其Fable 5和Mythos 5 AI模型下线。安全研究人员认为,所谓的护栏绕过并不足以证明此类行动的合理性,且此举损害了美国的网络防御能力。
如何在一下午失去全球AI垄断地位 | 封禁Fable 5的真正影响
Anthropic在周五下午收到出口管制通知后,被迫在全球范围内关闭其先进AI模型Fable 5和Mythos 5,暴露出AI安全、国家安全与企业竞争之间的复杂紧张关系。
围绕Claude Mythos 5之争的内幕
特朗普政府向Anthropic发布出口管制指令,以安全为由要求暂停其Mythos 5和Fable 5 AI模型的访问权限,此举引发紧急谈判,可能重塑AI行业。
Anthropic 表示将下架 Claude Fable 5 以遵守美国政府命令
Anthropic 在收到美国政府以国家安全为由的出口管制指令后,禁用了其 Claude Fable 5 和 Mythos 5 AI 模型,此举加剧了该公司与特朗普政府之间的紧张关系。