"他们坑了我们":个性冲突导致Anthropic的模型下线

Simon Willison's Blog 新闻

摘要

Anthropic的模型Fable和Mythos因公司与美国政府之间的个性冲突而离线,此前曾引发对越狱漏洞的担忧。本文探讨了幕后冲突以及实现完美抗越狱的可能性。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/06/15 16:59

# “他们坑了我们”:个性冲突导致Anthropic模型离线 来源:https://simonwillison.net/2026/Jun/15/axios-clashes-anthropics/ 2026年6月15日 - 链接博客 **“他们坑了我们”:个性冲突导致Anthropic模型离线 (https://www.axios.com/2026/06/15/anthropic-white-house-fable-mythos)**。这篇Axios文章引用了大量的“熟悉政府思路的消息人士”和“接近Anthropic的消息人士”,是我迄今为止看到的关于美国政府出口管制Mythos/Fable故事(https://simonwillison.net/2026/Jun/13/us-government-directive-to-suspend-access/) 的最佳幕后八卦汇总。 据报道,Logan Graham(我在Anthropic领导前沿红队 (https://logangraham.xyz/))、Dave Orr(安全负责人,此前为Google DeepMind工程总监)以及博客常客Nicholas Carlini (https://simonwillison.net/tags/nicholas-carlini/) 今天将在华盛顿与商务部会面。祝他们好运! (我刚注意到Logan在鲍里斯·约翰逊时代曾任“首相特别顾问”,负责AI、科学和技术政策——所以政治经验相当丰富。) 最后的这段注释让我对短期内拿回Fable不太乐观: > **归根结底**:一种方案是确保Anthropic的模型无法被越狱——但完美的抗越狱能力可能 (https://www.anthropic.com/news/fable-mythos-access) 是不可能的。除此以外,一位熟悉政府思路的消息人士表示,可能归结为态度调整:不再让人感到被敷衍,而是“让每个人都觉得安全、有保障、开心。” 这让我好奇Anthropic是否成功解决了2023年论文《对齐语言模型的通用与可迁移对抗攻击》(https://llm-attacks.org/) 中描述的那类攻击。 看起来他们的《宪法分类器》(https://www.anthropic.com/research/next-generation-constitutional-classifiers) 工作(那篇文章是今年1月的)与此相关。他们继续声称,尚未发现针对Claude Mythos的“通用越狱”,并将触发美国政府回应的那次越狱 (https://www.anthropic.com/news/fable-mythos-access) 归类为“一种潜在的窄范围、非通用越狱”。

相似文章

美国政府封禁Anthropic模型与AI越狱无关

TechCrunch AI

美国政府发布出口管制指令,以国家安全为由强制Anthropic将其Fable 5和Mythos 5 AI模型下线。安全研究人员认为,所谓的护栏绕过并不足以证明此类行动的合理性,且此举损害了美国的网络防御能力。