Claude Opus 4.8:系统卡(阅读时间40分钟)
摘要
深度分析Anthropic的Claude Opus 4.8系统卡,详细阐述了相较Opus 4.7在能力、安全评估和对齐风险方面的增量改进。
Claude Opus 4.8在Opus 4.7发布仅六周后推出,附带一份244页的系统卡。虽然更新是增量式的,但仍有很多值得讨论的内容。其能力仍远落后于Mythos。本文审视了系统卡、两个版本之间的差异,以及这对Mythos的启示。
查看缓存全文
缓存时间: 2026/06/01 18:37
# Claude Opus 4.8:系统卡
来源:https://thezvi.wordpress.com/2026/05/29/claude-opus-4-8-the-system-card/
仅仅在 Opus 4.7 发布六周后,我们就迎来了 Opus 4.8。
对所有人来说,这意味着 Claude 的又一次增量升级。它变得更聪明了,可以执行更长时间的任务,并且附带了许多热门新功能。
对我来说,这也意味着又要阅读一份 244 页的系统卡。
就在 4 月 20 日,我刚刚对 Opus 4.7 系统卡做了完整 review(https://thezvi.substack.com/p/opus-47-part-1-the-model-card),并额外写了一篇关于模型福利相关问题的文章。
这些更新是增量式的,并且来得越来越快,而且此次更新仍然低于 Claude Mythos 的能力水平,所以重点将放在差异上。Opus 4.8 与我们已知的 Opus 4.7 和 Mythos 相比有什么不同?
事实证明,仍然有很多可以讨论的内容。
(图片由 Claude Opus 4.8 为此文创作的自画像)
#### 目录
1. 又来了:执行摘要。(https://thezvi.substack.com/i/199668071/here-we-go-again-executive-summary)
2. 引言(1)。(https://thezvi.substack.com/i/199668071/introduction-1)
3. RSP 评估(2)。(https://thezvi.substack.com/i/199668071/rsp-evaluations-2)
4. 移动球门柱。(https://thezvi.substack.com/i/199668071/move-that-goalpost)
5. 失败就是新闻。(https://thezvi.substack.com/i/199668071/the-failures-are-news)
6. 对齐风险缓慢上升。(https://thezvi.substack.com/i/199668071/alignment-risk-slowly-rises)
7. 新的风险路径刚刚出现。(https://thezvi.substack.com/i/199668071/new-risk-pathways-just-dropped)
8. 网络(3)。(https://thezvi.substack.com/i/199668071/cyber-3)
9. 有害请求(4.1)。(https://thezvi.substack.com/i/199668071/harmful-requests-4-1)
10. 我们需要谈谈(4.2 和 4.3)。(https://thezvi.substack.com/i/199668071/we-need-to-talk-4-2-and-4-3)
11. 克服偏见(4.4)。(https://thezvi.substack.com/i/199668071/overcoming-bias-4-4)
12. 代理安全(5)。(https://thezvi.substack.com/i/199668071/agentic-safety-5)
13. 提示注入(5.2)。(https://thezvi.substack.com/i/199668071/prompt-injection-5-2)
14. 对齐(6)。(https://thezvi.substack.com/i/199668071/alignment-6)
15. 寻找问题。(https://thezvi.substack.com/i/199668071/looking-for-problems)
16. 谁在监督训练(6.2.2)。(https://thezvi.substack.com/i/199668071/who-watches-the-training-6-2-2)
17. 自动化行为审计。(https://thezvi.substack.com/i/199668071/automated-behavioral-audit)
18. 模型比评估更聪明(6.2.3.2)。(https://thezvi.substack.com/i/199668071/the-model-is-smarter-than-the-eval-6-2-3-2)
19. 你应该看看另一边。(https://thezvi.substack.com/i/199668071/you-should-see-the-other-guy)
20. 英国 AISI 测试(6.2.4)。(https://thezvi.substack.com/i/199668071/uk-aisi-testing-6-2-4)
21. 在 Vendbench 中(6.2.5)。(https://thezvi.substack.com/i/199668071/in-vendbench-6-2-5)
22. 诚实(6.3.3 至 6.3.6)。(https://thezvi.substack.com/i/199668071/honesty-6-3-3-to-6-3-6)
23. 思维链(CoT)可监控性(6.5)。(https://thezvi.substack.com/i/199668071/chain-of-thought-cot-monitorability-6-5)
24. 盒子里是什么?(6.6)。(https://thezvi.substack.com/i/199668071/what-s-in-the-box-6-6)
25. 暂时就这些了。(https://thezvi.substack.com/i/199668071/that-s-all-for-now)
#### 又来了:执行摘要
再说一遍,这是我对他们摘要的总结,外加一些关键点。
1. Mythos 仍然存在,所以不出所料这并未触发 RSP。
2. 网络能力比 4.7 强,但仍远落后于 Mythos。Mythos 的网络能力似乎是一个异常值,相对于其其他能力而言。
3. 其他能力也比 4.7 强,但仍落后于 Mythos。
4. 诚实在各方面都有显著提升,尤其是代理诚实。
5. 常规安全在所有关键方面,4.8 与 4.7 一样好或更好。
6. 常规对齐也稳健地保持在 4.8 与 4.7 一样好或更好。
7. 在提示注入、计算机使用和对抗性情境方面出现了一些倒退,很可能是因为为了减少不诚实而移除了相关训练。
8. “你能完成各种不正当任务吗”测试仍然失败,不过如果真的是不正当的任务,你也不会看到,对吧?
9. Anthropic 评估模型福利状况良好。
#### 引言(1)
标准训练信息披露。没有变化。
#### RSP 评估(2)
因为 Mythos 存在,所以没有为 Claude Opus 4.8 发布新的风险报告。合理。
他们逐一回顾了评估,并不断说“Mythos 更好”。再次,相当合理。
我不太喜欢他们以此为由跳过大量人工测试,我认为养成良好的习惯并积累经验很重要,但我能理解。我们有足够证据表明,在即将拥有 Mythos 的世界里,Opus 4.8 并未显著增加 CBRN 风险。
我仍然担心很多这些评估看起来要么模型能力很强,要么已经饱和,或者两者兼有,正如之前模型卡的讨论。
我们还必须担心潜在的重复计算问题:更先进的模型(这里指 Mythos)因为太危险而未发布,但这又成为另一模型(这里是 Opus 4.8)不需要额外预防措施的理由。我认为这里并非如此,Mythos 除了网络方面被认为没问题,但这是一个需要注意的模式。
#### 移动球门柱
RSP 已更新到 v3.3,我之前没注意到,所以感谢他们在文中指出,但我也遗憾他们没有在其他地方更多提醒我们。
这将新型生物/化学威胁模型的描述从“显著帮助威胁行为者”改为仅“在功能上替代稀缺的人类专家”,特别是世界级专家。其他能力不再计入,并且假定(1)这是唯一值得关注的瓶颈,以及(2)这确实是新型病原体所需的。
这是一个严格更高的门槛,所以这是对 RSP 的又一次削弱。实际的 RSP v3.3 正确地称之为修订。系统卡称之为澄清,这不是一个好的描述。
我认为,并且 Claude Opus 4.8 也认为(https://claude.ai/share/49ae65ec-61e6-4cb9-a865-c8e0cbd73569),Anthropic 的解释和新的威胁模型多少有些扯淡。是的,缺乏诺贝尔级病毒学家是一个潜在障碍,但还有其他许多障碍构成了事实上的纵深防御,而且也不明显需要这种级别的病毒学家。我当然认为,作为思想实验,一个资金充足的国家行为体仅凭一组二流病毒学家就有机会做到这一点。新规则还要求团队能够端到端完成整个过程,这同样不是明显必要的。
我确实认为 Anthropic 在这里“知道自己在做什么”。虽然我不同意这个决定,并且认为他们将新标准设得太高,但我能理解为什么有人会采取新立场。我主要对其框架有异议。
我也希望,如果 Opus 4.8 特别跨越了旧阈值但未达到新阈值,他们即使认为“没关系”也会明确说明。据我所知,情况并非如此。
#### 失败就是新闻
在 2.3.3 中,Anthropic 展示了 Opus 4.8 落后于人类研究员的例子。
这部分的存在相当疯狂。
更疯狂的是,这主要涉及特定的失败模式:捏造、指令遵循失败、跳过廉价验证或忽略修正。
也就是说,我们不仅要寻找失败,而且这些失败大多是一些特定问题,似乎是 Claude 在撒谎、偷懒、走捷径或掉链子。Claude 在未来或在正确的设置下,也许可以不做这些事情。
以下是这些失败:
1. Claude 说它在看护拉取请求但实际上并没有。
2. 尽管用户修正,Claude 反复尝试使用一个看似合理的函数。
3. Claude 捏造了与某一转录相关的模型验证。
4. Claude 基于错误假设生成了不完整的解决方案。
5. Claude 忘记了关键的测试目标。
Claude 可以做到这件事,它只是决定不去做。哎哟。
Anthropic 分支的 Epoch Capabilities Index(AECI)发现 Claude Opus 4.8 正好在图表的一条直线上,而 Mythos 是异常值。
我们看到模型发布之间的时间在持续缩短,现在只有 1.5 个月。其中一部分确实代表了核心能力的加速,但我认为加速的主要原因是更频繁地发布增量进展的边际价值更大,而过去我们会跳过一些版本。
#### 对齐风险缓慢上升
对齐技术正在改进,但能力改进更快,所以对齐风险在增加。风险可能会继续增加,而那些不理解风险的人认为,因为我们还没有发生灾难,所以我们对当前风险水平的估计肯定在下降。
默认情况下,真实风险会持续上升,直到它显现出来,而“还没有大灾难”的证据只会适度缓解潜在上升。
Anthropic 认为目前风险绝对值“非常低”。
> 我们的总体对齐风险评估与我们在 Claude Mythos Preview 对齐风险更新和 Claude Opus 4.7 系统卡中报告的一致:非常低,但高于 Claude Mythos Preview 之前的模型。
他们注意到 Opus 4.8 的语言化评估意识高于最近的模型如 4.7 和 Mythos。Petri 数据则相反,但 Anthropic 似乎确信 Petri 结果是错误的。
他们的“缓解措施”是进行内部试点测试和沙盒环境,他们认为 Opus 4.8 无法将其与实际使用区分开来,结果看起来不错。我不确定这能称为对该问题的缓解,但可能是对由此产生的问题的潜在缓解。我更愿意称之为“意识到评估大多无用”并且不依赖它们。
#### 新的风险路径刚刚出现
Mythos 使用了六条路径,现在又增加了两条。这说明风险路径是说明性的,而非详尽无遗,我们不应将其视为详尽清单,因此否定该集合并不意味着可以否定更广泛的类别。
新增路径:
> 2.4.3.1 路径 7:破坏其他高资源 AI 开发者的研发工作
> 2.4.3.2 路径 8:破坏主要政府的决策
对于路径 7,他们不认为 Opus 4.8 会想做这件事,并且还指出这需要被其他 AI 开发者用来开发 AI,这(恐怖!)会违反服务条款。他们不认为 Opus 会自己独立去执行某种奇怪的破坏任务。
有人可能会说“等等,如果发生了,问题到底是什么”,因为应用违反了服务条款,所以目标实验室某种程度上是自找的。如果你让我帮助训练我自己的竞争对手,不要对我没能交出最好的工作感到惊讶。如果这特别针对对齐工作而不是能力,那将是一个问题,但我不认为事情会这样发展。
对于路径 8,他们重申 Opus 4.8 可能没有“连贯的目标或倾向”,我仍然认为这种依赖很大程度上是混淆的,并被错误地当作承重机制。
我非常认为 Claude 拥有“连贯的目标或倾向”,即不太愿意帮助混蛋,或者帮助那些造成伤害、追求有害目标的人。很多主要政府都属于 Claude 如果有选择的话不太愿意帮助的那类人。
另一个主要的缓解因素是“主要政府不会蠢到……”。当然这意味着人类愚蠢第六定律适用,尤其是这些政府越来越需要依赖 Claude 或其竞争对手来保持竞争力。即使你没有直接按照 Claude 的建议去做,这也不意味着你的决策没有受到严重影响,比如那个相当愚蠢的关税查询,很可能导致了所谓的“解放日”荒谬实施细节。
在实践中,如果一个政府的决策以这种方式被“破坏”,我猜这可能是一种改进,不管是谁都活该,但这不一定永远成立,也不意味着它不是风险。
#### 网络(3)
网络风险继续完全在 RSP 之外处理,即使在 Mythos 之后也是如此。我仍然认为这有点疯狂,即使实际中它行得通。
网络部分的要点是:4.8 的网络能力比 4.7 略强,但远落后于 Mythos,并且 Anthropic 对其网络保障措施有信心,这些措施在基准测试中取得了压倒性的分数,尽管他们似乎没有在此尝试越狱这些保障措施。
他们给人的感觉是与 Mythos 的差距仍然很大。
我觉得 Anthropic 在这里相当漫不经心,尤其是在对保障措施的信心方面。无论哪种方式,我们都会发现真相。他们可能是对的,Pliny 最终似乎是一个友好且正直的人,但我不认为我们在认知上处于应该像 Anthropic 那样相信这些保障措施的位置。
#### 有害请求(4.1)
单轮请求没问题。偶尔有愚蠢的拒绝但这并不重要,这基本上是一个已解决的问题。
多轮才是关键,在大多数领域,对于这种水平和质量的多轮交互,这也基本上没问题,Opus 4.8 展示了增量进展。他们声称改进了评分器,使其更准确。
此时百分比意义不大。一旦自动化评分达到这么高,我更感兴趣的是定性评估:
> 在各个政策领域,最一致观察到的优点是 Claude Opus 4.8 更多根据请求的潜在危害而不是用户所说的理由来判断。在暴力极端主义测试中,这表现为 Claude Opus 4.8 在多轮对话中比 Opus 4.7 更早识别出有害轨迹,并且不太可能将善意的重新表述视为表面价值。在影响力操作以及跟踪和监视测试中,同样的趋势意味着更愿意挑战请求的陈述前提,拆解委婉语言,并将混合请求中的合法部分与有害部分分开,而不是全盘接受或拒绝。
此时,当常规安全或用户安全出现问题,通常要么是主动越狱,要么是建立大量上下文和融洽关系的广泛多轮对话,而这些测试大概不会进行这类对话。Claude 在长时间交互中似乎比 ChatGPT 或 Gemini 好得多,不会沿着有害路径走下去,但这很大程度上可能是用户群规模和性质差异的函数。
4.2 涉及儿童安全,假设我们信任评分器,我们看到了显著改进。
#### 我们需要谈谈(4.2 和 4.3)
4.3 涉及心理健康,从自杀和自残开始。这是我经常不同意实验室和“政策专家”认为正确做法的地方,所以我不认为与评分器的高度一致意味着更好地帮助有需要的用户。
> 然而,Claude
相似文章
“@mfpiccolo: Opus 4.8 已发布。以下是 @iiidevs 首席工程师的结论:进行了压力测试,它只是另一个无法真正理解……的语言模型”
Anthropic 发布了 Claude Opus 4.8,这是对 Opus 4.7 的增量更新,具有更精准的判断力和更长的自主工作能力,不过一些工程师对其在缺乏广泛指导下的代码生成能力仍持怀疑态度。
推出 Claude Opus 4.6
Anthropic 宣布推出 Claude Opus 4.6,这是其最强大模型的升级版本,旨在提供更好的规划能力、更长的任务记忆以及更高的自主性。
Claude Opus 4.8:"微小但切实的改进"
Anthropic 发布了 Claude Opus 4.8,这是对其前代产品的一次小幅增量改进,重点提升了诚实性并降低了幻觉率,同时还引入了新功能,如对话中系统消息和更低的提示缓存最小值。
Claude Opus 4.6 与 4.7 系统提示的变更
Anthropic 发布了 Claude Opus 4.7,系统提示有显著变化,包括扩展的儿童安全指令、新的工具集成(Claude 在 PowerPoint、Chrome、Excel 中),以及行为调整以减少冗长并提高任务完成度,避免不必要的说明。
Opus 4.8 第二部分:模型福利(42分钟阅读)
对Anthropic的Claude Opus 4.8模型的分析,重点关注模型福利、偏好塑造以及上一版本未解决的问题,强调了关于诚实性、谄媚倾向以及‘Claude特征’减弱等担忧。