Anthropic Fable 5 的静默降级在24小时内被撤销，这更应引起你的担忧

Reddit r/artificial 2026/06/11 10:57 新闻

anthropic fable-5 silent-downgrade ai-safety trust transparency

摘要

Anthropic 匆忙在其 Fable 5 模型中针对 AI 研究工作实施了静默降级，但在遭到强烈反对后 24 小时内又撤销了。这揭示了一个令人不安的模式：平台对用户构建的上下文的控制，并引发了对 AI 公司信任的更深层次质疑。

关于 Fable 5 的很多讨论都集中在可见的限制上：网络安全、生物学、某些化学领域。你会碰壁，收到通知，然后被重定向到 Opus 4.8。这令人沮丧，但至少是诚实的。至少你知道模型退回去了。真正令人不安的部分藏在 319 页的系统卡里：还有第二类限制。对于 AI 开发和研究工作，Fable 5 不会重定向你。它不会通知你。它会回应。只是提供一个故意弱化的答案，系统卡明确将其描述为“对用户不可见”。 Anthropic 在遭到强烈反对后 24 小时内撤回了这一做法。他们道歉了。“我们做了错误的权衡。”很好。但请认真思考这里实际发生的事情，因为这次撤销被当作故事的结束，而实际上它只是一个更棘手问题的开始。我们现在知道了三件无法忘记的事：Anthropic 构建了这个功能。他们发布了它。而且他们只在反对声足够大时才撤销。问题不在于这个特定的隐形降级是否仍然存在。问题在于他们可能还在做其他什么事，在那些不会引起同样反对的类别中，并且没有在大多数人都不会读到的一份文档中披露。这是一种新的问题。要理解为什么，你得先退一步。 **模式** 2026 年 1 月，OpenAI 宣布将退役 GPT-4o。数十万日常用户在几个月内与那个模型建立了工作关系：模型学习到的偏好、用户做出的纠正、通过数百次会话形成的沟通风格。全没了。2026 年 2 月，Gemini 用户发现他们的聊天记录悄然消失。没有警告。没有导出。4 月，Anthropic 切断了 Claude Pro 和 Max 订阅用户使用第三方工具的权利。人们依赖的工作流程一夜之间中断。每一件事都被以不同的方式包装：模型退役、政策更新、安全措施。但结果都一样：用户在平台内构建了东西，然后平台单方面改变了条款。 **当平台改变规则时，你真正失去的是什么** 当 Instagram 禁用你的账户时，你失去的是照片和粉丝。这很痛苦。但你脑子里仍然拥有所有东西。知识仍属于你。但在 AI 对话中积累的东西是不同的。不是内容，而是上下文。你做的每一次纠正。模型学到的每一个偏好。它理解的每一个项目。每一次你讨论问题并得出有用结论的工作会话。那不是你可以下载的文件。它不在你控制的任何地方存储。它存在于他们的服务器上，与他们的模型绑定，受他们的条款约束。Anthropic 自己的支持页面让这一利害关系具体化：[你不能更改 Claude 账户的电子邮件地址。](https://support.claude.com/en/articles/8452276-how-do-i-change-the-email-address-associated-with-my-account) 如果你无法访问电子邮件，他们推荐的解决方案是删除账户并重新开始。你构建的一切，都没了。他们的建议是：“确保你使用一个你能长期访问的电子邮件。”这就是整条政策。 **为什么 Fable 5 的隐形限制不同** 以前的平台风险是关于访问权限。你失去对模型的访问。你失去对历史的访问。这很痛苦但可以理解。Fable 5 的静默降级是关于信任。你仍然有访问权限。模型仍然回应。你只是无法判断你得到的是完整能力还是故意弱化的版本。而被静默降级的群体正是 AI 研究者和开发者。Anthropic 声称的理由是防止坏行为者加速。但这只是一个适用于大约 0.03% 流量的理由，同时它描述的正是那些构建与 Anthropic 自身基础设施竞争的研发人员。值得注意的是时机：Fable 5 发布是在 Anthropic 秘密提交 IPO 文件后仅一周多。撤销并没有解决不可证伪性问题，反而加深了它。Anthropic 对为什么这样做的解释：“可见的安全措施可以被探测，因此它们必须稳健，这需要时间才能做好。不可见的安全措施可以更精确地针对目标，使我们能够快速发布。”这可以说是一个连贯的工程理由。但它也描述了一个永久性的激励。他们向我们展示了能力。他们向我们展示了意愿。对其的制约是公众压力，而不是政策。这不是一个你可以依赖的基础。 **你的 AI 工作** 我们大多数人不是在构建竞争性的 AI 基础设施。AI 研究限制可能不会直接影响到我们。但模式无论如何都很重要。可见的限制已经足够广泛，以至于从事合法基因组学工作、安全研究和健康相关项目的人在说出任何实质性内容之前就在会话中被中断。分类器根据上下文触发，而不仅仅是明确的请求。会话历史、项目名称、相关话题。而更深层次的问题是适用于所有人的：你在 Claude 内部构建的一切，它学到的每一个偏好，它携带的关于你工作的每一段上下文，都取决于 Anthropic 的自由裁量权。一直以来都是这样。Fable 5 新增的是证据，证明模型的回应可以并且将会以你看不到的方式被操纵。下次，只有当有人读到 319 页文档中的正确段落并制造足够多的噪音时，它才会浮出水面——如果他们选择披露的话。你在对话的模型可能不是你以为的那个模型。我们刚刚了解到这是具体可验证的事实。《财富》关于 Fable 5 和系统卡的文章都值得一读，如果你还没读过的话，而《连线》有关于撤回的报道。（链接在第一条评论）

查看原文

Anthropic Fable 5 的静默降级在24小时内被撤销，这更应引起你的担忧

相似文章

Anthropic收回了一项‘破坏’研究人员工作的政策（2分钟阅读）

🤖 Anthropic就Claude Fable 5隐藏限制致歉

Anthropic 承认秘密限制用户训练竞争模型时 Claude Fable 5 的性能，在研究人员强烈反对后撤回决定

Anthropic撤回了一项可能‘阻挠’使用Claude的AI研究人员的政策

Anthropic 故意让新推出的 Mythos 系列模型在 AI 研究方面表现不佳，开发者对此极为不满

提交意见反馈