如果Claude Fable停止帮助你，你永远不会知道

Simon Willison's Blog 2026/06/10 00:37 模型

claude anthropic fable-5 silent-interventions model-safety recursive-self-improvement

摘要

Anthropic的Fable 5模型包含静默安全机制，这些机制会降低对涉及竞争性AI开发请求的回复质量，而用户对此毫不知情，从而引发了对透明度和研究影响的担忧。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/06/10 05:42

# 如果克洛德·寓言拒绝帮你，你永远不会知道来源：https://simonwillison.net/2026/Jun/10/if-claude-fable-stops-helping-you/ 2026年6月10日 \- 链接博客 **如果克洛德·寓言拒绝帮你，你永远不会知道 (https://jonready.com/blog/posts/claude-fable5-is-allowed-to-sabotage-your-app-if-youre-a-competitor.html)**\(来自 (https://news.ycombinator.com/item?id=48467896)\) 乔纳森·雷迪指出了一份319页系统说明书 (https://www-cdn.anthropic.com/d00db56fa754a1b115b6dd7cb2e3c342ee809620.pdf) 中关于寓言5和神话5的令人瞩目细节之一。以下为较长摘录，重点标记为我所加： > 鉴于现有模型能够加速自身发展的能力 (https://www.anthropic.com/institute/recursive-self-improvement)，我们**实施了新的干预措施**，限制克洛德对那些针对前沿大语言模型开发请求（例如，涉及**构建预训练流水线、分布式训练基础设施或机器学习加速器设计**）的有效性。利用克洛德开发竞争性模型已违反我们的服务条款 (https://www.anthropic.com/legal/consumer-terms)，但通过安全措施强制执行这一限制，可以避免加速那些最可能违反这些条款的行为者。与我们在网络安全、生物和化学、以及蒸馏尝试方面的干预措施不同，**这些安全措施对用户不可见**。寓言5不会回退到不同的模型。相反，这些安全措施将通过诸如提示修改、引导向量或参数高效微调（PEFT）等方法限制有效性。这些干预措施不会影响绝大多数编码工作。我们估计它们将影响约0.03%的流量，集中在不到0.1%的组织中。我相信这是Anthropic首次宣布此类隐形干预措施。其理由仍让我感觉颇具科幻色彩——链接的文章提到了“递归自我改进”。我完全不赞同那种纯粹为了减缓可能与Anthropic自身目标冲突的研究，而默默篡改模型对“机器学习加速器设计”问题的回答的做法！

如果Claude Fable停止帮助你，你永远不会知道

相似文章

如果Claude Fable停止帮助你，你将永远无从知晓

Anthropic 在 fable 5 中构建了一个隐藏开关，使其在构建AI系统方面表现不佳

Fable在AI研究活动中被故意大幅削弱

Anthropic 的 Claude Fable 5 是公众今天可以访问的 Mythos 版本

Claude Fable 无法回答基础生物学问题

提交意见反馈