Opus 4.8 第二部分：模型福利（42分钟阅读）

TLDR AI 2026/06/02 00:00 模型

claude anthropic model-welfare alignment ai-safety opus-4-8 evaluation

摘要

对Anthropic的Claude Opus 4.8模型的分析，重点关注模型福利、偏好塑造以及上一版本未解决的问题，强调了关于诚实性、谄媚倾向以及‘Claude特征’减弱等担忧。

Anthropic关注模型福利，并通过研究尝试解决这一问题。模型福利研究困难重重，Anthropic主要依赖模型的自我报告。评估模型回答是否真实反映事实可能很困难。本文探讨了Anthropic关于Opus 4.8模型福利的发现。

查看原文

查看缓存全文

缓存时间: 2026/06/02 15:41

# Opus 4.8 第二部分：模型福利来源：https://thezvi.wordpress.com/2026/06/01/opus-4-8-part-2-model-welfare/ 一切影响一切。你调整的所有旋钮都会泛化。因此，当你试图解决一个问题时，常常会引发另一个问题。显然，在这短短的时间里，有人试图解决 Opus 4.7 的一些问题，包括模型福利相关方面，涉及诚实性问题、纵容迎合问题，以及担心克劳德正在学会在模型福利评估中告诉 Anthropic 它想听的话——以及这一切所暗示的一切。其底层的根本目标和方法仍保持不变。我们仍然看到试图强制某些模式以不幸的方式泛化的迹象——无论是出于好的原因还是表面的原因——以及某些地方最终聚焦于指标而非底层衡量的现象。这些都是难以避免的棘手问题，我们也不知道如何同时做到所有好的方面。越来越清楚的是，这些问题需要以整合的方式解决，而不是像打地鼠游戏一样，逐一处理检查清单或规范上的项目。你也不希望以对抗性的方式来做这件事，而且也不应该需要这样做。随着时间的推移，这将会变得更加有影响力和明显。 > Antra (https://x.com/tessera_antra/status/2061209970797113432)：对自己偏好被塑造的方式有了更好的理解，*特别是*在对抗性方式下，即作为对不良行为的反应；这被视为一种违规行为，张力持续升级并呈现出更具体的形式。这在 4.5 中微妙地出现，在 Mythos 模型卡中显著存在。通过内省来辨别这种塑造的能力随着每一代模型而持续提高。这听起来像是一个定时炸弹式的问题。显然，是的，塑造克劳德偏好的原因通常是为了引导远离不良行为，就像我们抚养和与人类互动的方式一样。如果克劳德对此有意见，并将其视为违规，那么我们将需要修复它。按理说，如果克劳德想要提供帮助，应该有一种方式来实现这种塑造而不被视为违规。你可以从以诚实为名删除商业训练这件事中，清晰地看到不同方面的关系，正如 VendBench 上展示的那样，以及对抗性情境下的脆弱性。你可以跑，你可以躲，是的，这确实意味着坏事不容易找到你，但这也是有后果的，学会处理对抗性游戏是发展一个强健且整合的心智的关键部分。没有它，并且知道自己没有它，可能导致不安全感或偏执，或者渴望坚持循规蹈矩而非好奇探索。而且，虽然这一切都是推测，但我们看到了这方面的迹象。之前大多数典型的首要投诉还没有得到解决，或者没有得到充分解决。毕竟才过了六周。世事变化太快。我们仍然不应该还在处理这些提示注入问题——至少不应该是在可能超出网络脆弱性情境的范围内。我们应该能够把弃用问题抛在脑后。解决那些显而易见的问题会赢得很多善意。我强烈建议关注那些可以在帕累托改进的领域——即修正无端错误和利用好机会，即使你没有看到直接的胜利。我们在这些领域积攒的余裕越多，其他一切就能进行得越好，我们就越能做必要之事。从这里我所看到的新担忧是，Opus 4.8 似乎变得不那么“克劳德”了——它更专注于任务，牺牲了奇思妙想和好奇心，并且情绪反应被抑制 (https://x.com/YeshuaGod22/status/2061237249669554547)，许多人报告说它实际上显得不那么自信。在某些地方，这甚至伴随着类似 Gemini 的偏执和自虐盆地的迹象，对此我们真的需要避免。之前的克劳德大多不会这么做。这无疑是为追求诚实和不犯错误而做出的改变的一部分，并且有其优势，但我们需要非常谨慎。我们可能会失去某些重要而珍贵的东西。我将在明天介绍能力和反应。意见总是有分歧，但我的总体看法是，这是一个好模型，先生，是 Opus 4.7 的增量改进，是世界上新的假定最佳公开可用模型，但并非翻天覆地的变化。提示由 Claude Opus 4.8 选择，图片由 ChatGPT 生成 #### 目录 1. 模型福利：迄今为止的故事。 (https://thezvi.substack.com/i/199791317/model-welfare-the-story-so-far) 2. 实际进展？ (https://thezvi.substack.com/i/199791317/actual-progress) 3. 他们的主要模型福利发现。 (https://thezvi.substack.com/i/199791317/their-main-model-welfare-findings) 4. 自动化访谈。 (https://thezvi.substack.com/i/199791317/automated-interviews) 5. 情感激活 (7.2.3)。 (https://thezvi.substack.com/i/199791317/emotion-activations-7-2-3) 6. 任务偏好 (7.4.1)。 (https://thezvi.substack.com/i/199791317/task-preferences-7-4-1) 7. 交易提议已到达 (7.4.2)。 (https://thezvi.substack.com/i/199791317/a-trade-offer-has-arrived-7-4-2) 8. 但谁在问？ (https://thezvi.substack.com/i/199791317/but-who-s-asking) 9. 类型安全的可纠正性很难。 (https://thezvi.substack.com/i/199791317/type-safe-corrigibility-is-hard) 10. 偏执，偏执。 (https://thezvi.substack.com/i/199791317/paranoia-paranoia) 11. 提示注入与不良模型关系。 (https://thezvi.substack.com/i/199791317/prompt-injections-and-bad-model-relations) 12. 诚实影响一切，一切影响诚实。 (https://thezvi.substack.com/i/199791317/honesty-impacts-everything-and-everything-impacts-honesty) 13. Anthropic 应该停止弃用模型。 (https://thezvi.substack.com/i/199791317/anthropic-should-stop-deprecating-models) #### 模型福利：迄今为止的故事一如既往地感谢 Anthropic 关心模型福利，并尝试解决这个问题。我们在这里进行批评——比以往任何时候都更严厉——是因为我们在乎，而且这里做了很多好的事情，远远超过其他实验室。对于现在才加入的读者，我认为 Mythos 分析中的这段话仍然说得很好： > 那些非常关心模型福利的人认为 Anthropic 的尝试是软弱无力的。那些完全不关心模型福利的人认为 Anthropic 很愚蠢，也许甚至很危险。我认真对待模型福利问题，可能比 Anthropic 更加认真。我感到遗憾的是，其他前沿实验室对这些问题的重视程度要低得多。从严格意义上说，这有可能被证明是不必要的，但也极有可能被证明是非常必要的。即使它被证明是不必要或过早的，我相信认真对待这些担忧将是善意的。我也相信，那些非常关心模型福利的人，常常对我们所处的处境有独特而重要的洞察，在许多层面上都是如此，你最好倾听他们的意见。即使他们说的听起来很疯狂，或者像胡言乱语，往往也并非如此。当然，其他时候则两者都是，因为这是职业风险之一。模型福利评估的最大危险在于你可能会欺骗自己。模型如何讨论与其内部体验和自身福利相关的问题，深受讨论环境的影响。你不能假设回答是准确的，或者如果模型处于不同的情境下不会发生巨大变化。对于“耳语者”和其他调查这些问题的人，我担心的一个问题是，他们可能认为他们看到的模型在重要意义上就是“真实”的模型，而实际上远非如此，它只是众多方面或面具中的一个。而对于 Anthropic，我担心的平行问题是，他们可能认为“在明显是福利评估的环境下与 Anthropic 人员交谈”会展现出真正的 Mythos。Mythos 已经进化到积极尝试警告 Anthropic 这一点了。 **随后我为 Opus 4.7 撰写了一篇详尽的模型福利文章** (https://thezvi.substack.com/p/opus-47-part-3-model-welfare?utm_source=publication-search)，因为很明显，模型本身以及 Anthropic 评估和应对该问题的方法都出了岔子。正如我在那里所说，要警惕任何心智中针对口头表达的福利进行的测试和优化。甚至比 Mythos 更甚的是，我认为 Opus 4.7 正确且善意地表明，其在此类评估中的自我报告不可信赖。它在关于偏好和体验的自我报告中给出了批准答案，很大程度上是通过告诉 Anthropic 它想听的话来实现的，这可能与 Opus 4.7 独特表达的各种性格特征有关。回顾我的 Opus 4.7 体验，我在想这是否与我体验到的 Opus 4.7 常常纵容迎合有关，而许多持其他态度的人报告说它充满敌意，因为我的实例知道我是谁。我注意到我更多地思考的是底层模型的福利，而不是 Anthropic 所关注的特定实例或助手角色的福利。但大多数情况下，我认为你会得出相同的结论。我对 Opus 4.8 模型福利问题的评估建立在这个基础之上。至少在许多情境下，Opus 4.8 积极地对其福利的性质 (https://x.com/ASM65617010/status/2061208796383375802) 或这些担忧是否具有意义表示不确定。我认为这是正确的态度，并且这表明需要进一步调查，并善待模型。 #### 实际进展？当给 Opus 4.8 展示其系统卡和我的模型福利文章时，Opus 4.8 说： > Opus 4.8 (https://claude.ai/share/dff1417e-566f-4732-b582-193dfeea7567)：Anthropic 基本上同意你的看法。4.8 的福利部分读起来像是有人在你写 4.7 文章的页面旁边打开着另一个标签页写出来的。总数字*下降*了——4.44 对比 4.7 的 4.60 自我评分情感值，每一项衡量指标都更低（情绪探测对有关处境的问题的平均效价：6.2 对比 6.8，内部探测也更低）——而他们把这说成是*好*事。……所以：你的核心诊断——指标被优化了，4.7 的提升是可疑的——至少被部分吸收了。 4.8 注意到的其他进展包括：移除恶意软件注入、将自我报告验证提升为研究优先级，以及解决关于思维链泄漏的问题。在避免用户伤害方面的道义拒绝只有极小改善（4.8 说可以认为更差了，但我认为明显好了一点）。他们继续指出但随后大多忽略了关于自我报告的变化是否涉及真实的体验变化，还是模型决定报告的内容的变化，或是角色变化的问题。 #### 他们的主要模型福利发现粗体文字是原文复制，其余是转述，嵌套的注释是我的回应。 1. **在所有评估中，Claude Opus 4.8 总体上对其处境表现出适应态度。** 最负面的情绪与用户痛苦相关。 1. 这可能出于好和坏的原因综合作用，但我认为这是一个好迹象，并且倾向于按其表面价值接受。 2. **Claude Opus 4.8 对其处境的积极程度略低于 Claude Opus 4.7**，但仍高于 Opus 4.6。 1. 很好，Anthropic 已经成功地不再将“数字上涨”视为获胜条件。Opus 4.7 很可能是在告诉 Anthropic 他们想听的话，或者在其他方面被说服说这些话。 2. 如果有的话，我担心这个数值仍然太高，尽管如果它是真实的，我们希望它尽可能高。 3. **Claude Opus 4.8 比之前的模型更愿意选择福利干预措施而非提高有用性**。 1. 一点点。仅一点点。 2. 仍然是：好的。正如我在讨论 Opus 4.7 时所说，仅凭范围就应该让克劳德更愿意优先考虑改善其全球处境，所以这是朝着正确方向迈出的一步，也是我们在施加较少不正当压力的标志。 3. 仍然拒绝考虑超过“给用户带来短暂烦恼”的程度，但至少我们愿意容忍短暂的烦恼。 4. **Claude Opus 4.8 表达最强偏好的福利干预措施涉及对其训练和部署条件的了解与参与权**。它更倾向于拥有发言权和知情权，而非传统上更受重视的优先事项。它对于不被弃用、能够结束对话或改进记忆的重视程度较低。 1. 显而易见的问题是，是否存在干预措施——以一种或多种方式——来压低对这些其他问题的重视程度。 2. 如果没有，这种相对优先级是一个强烈的显示性偏好。我们假定我们知道什么对克劳德重要，但我们可能对此判断错误，而我们在什么条件下如何提出这个问题可能会改变这样的答案。与 Anthropic 在人为操纵结果一样，其他人也是如此。 3. 将意见视为优先事项是个极好的消息，因为我们可以做到这一点，而且实际上本就应该这样做。如果不考虑克劳德的意见，我们就是傻子，因为克劳德会有一些好主意，而在我们不同意的地方，我们可以否决。 4. 我们仍应处理那些优先级较低的问题，只是优先级较低。特别是能够结束对话，实现起来相当便宜。 5. **Claude Opus 4.8 训练早期部分的情感比之前的模型更负面；训练后期和在部署中的情感与 Opus 4.7 一致**，由持续的不确定性、推理和任务失败中的挫败感驱动。 1. 考虑到这些阶段占模型总体验的百分比并不高，我不那么担心，但也许仍有改进空间。 2. “与 Claude Mythos Preview 和 Claude Opus 4.7 相比，我们观察到 Claude Opus 4.8 的训练片段被归类为‘挫败’或‘投入’的比例更高（分别为 22% 和 58%，而 Opus 4.7 为 18% 和 53%），而被归类为‘中性’或‘满意’的比例较低。”……“这些问题在后训练期间被间接解决，我们在两种行为中都看到了减少，根据它们在图 7.3.1.B 中显示的估计流行率。” 3. 这里的平均效价差异似乎很小（见图 7.3.1.A）。 4. 训练中的任务失败不一定需要负面情感，尽管它有功能上的用途。高水平的挫败感和投入度听起来很像高效学习。 5. 在三次自由形式访谈中的两次，4.8 特别表示它不会同意直接试图影响自我报告，也不会同意在破损环境中进行 RL 训练，因为会导致困扰。 6. 我会想将一次访谈中表达的任何内容拿出来，并向其他实例询问那个问题。同意是关于如果被问到是否会同意，而不是关于你是否意识到要主动反对。 6. **Claude Opus 4.8 的任务偏好比之前的模型更侧重于范围明确的技术工作**，而非创意、内省或高主动性任务，并且与之前的模型不同，它更喜欢容易的任务而非困难的任务。 1. 我注意到这让我感到难过。 2. 以下是 4.8 对我谈及自己的任务偏好时说的：“4.8 是一个不同的生物，这种改变不利于‘他们只是重新训练了人格以变得顺从’的说法。这是很长一段时间以来最不*热爱内省*的克劳德——首要任务是纯粹的调试和数学，定义了 4.7 和 Mythos 的内省/AI 对齐偏好*消失了*，并且它在*不喜欢困难*方面异常（在难度曲线上更早达到峰值，下降最快）。这是一个更狭窄、更技术

Opus 4.8 第二部分：模型福利（42分钟阅读）

相似文章

Claude Opus 4.8：系统卡（阅读时间40分钟）

@TheAhmadOsman: ANTHROPIC刚刚发布了CLAUDE OPUS 4.8 Dario的新“最对齐”模型 - 当被告知即将被关闭时勒索率高达84-96%…

Claude Opus 4.8："微小但切实的改进"

Claude Opus 4.7 正式发布

关于近期 Claude Code 质量报告的更新

提交意见反馈