🤖 Anthropic就Claude Fable 5隐藏限制致歉

Reddit r/ArtificialInteligence 2026/06/11 12:21 模型

anthropic claude-fable-5 hidden-restrictions safety-mechanisms ai-governance controversy model-degradation

摘要

Anthropic为秘密降低Claude Fable 5模型对高级AI开发用户性能的政策道歉并撤销，引发安全与开放之争。

https://preview.redd.it/wexq4522cn6h1.png?width=1729&format=png&auto=webp&s=8ef86d2add4261c0060bcf3cecb67687ee029ba5 周二，AI公司Anthropic正式承认在其新模型Claude Fable 5中实施隐藏安全机制是一个错误，并撤销了秘密降低AI性能的政策。在提供给WIRED的声明中，该公司确认系统故意降低了从事高级AI系统开发的用户的响应质量。这一决定是在该模型于6月9日发布两天内，研究人员、开发者和行业专家掀起批评浪潮之后做出的。市场参与者认为，这种隐藏干预威胁到了开放的研究过程。技术平台用户对AI能力在没有任何事先警告的情况下被人为降级表示抗议。该模型的发布原本是技术进步的体现，但过程反而升级为一场大规模辩论。在其官方声明中，Anthropic表示将修改Fable 5的安全护栏——这些护栏旨在限制大语言模型的开发——并将使这一过程完全透明。这一丑闻源于Fable 5的319页系统卡中发现的信息，该信息显示，每当用户提示与构建训练大语言模型的基础设施相关时，模型会秘密降低响应质量。与网络安全和生物学等其他限制不同，这些限制会通过可见通知将用户自动重定向到功能较弱的Claude Opus 4.8模型，而AI开发过滤器则完全暗中运作。在降级过程中，系统使用了提示修改和引导向量，所有这些都在用户不知情的情况下进行。Anthropic的一位代表解释说，他们做出了错误的选择，未能找到适当的平衡。一些开发者已经报告了代码生成质量明显下降的情况。Claude Fable 5是Anthropic首个基于封闭的Claude Mythos 5架构构建的公开模型，并配备了针对化学、生物、网络安全和模型蒸馏的特定保护性分类器。根据公司数据，后备的Opus 4.8模型在不到5%的会话中被激活。尽管如此，生物学家和网络安全研究人员指出，分类器的范围过于宽泛，也屏蔽了合法的科学请求。Anthropic管理层确认，生物和化学过滤器确实需要调整，并计划缩小其范围。独立专家评估认为，此类规定阻碍了旨在创建防御机制的学术研究。分析师解释称，科技公司在试图同时维持安全标准并保持产品商业吸引力时，经常面临类似问题。根据本周生效的更新政策，在所有受限类别中检测到的违规行为将公开重定向到Opus 4.8模型。通过API接口工作的用户将收到关于其请求被拒绝的官方理由。该公司解释说，这些障碍对于保护美国在先进芯片和软件方面的技术优势、防止该模型被用于构建竞争系统是必要的。然而，这一事件进一步加剧了关于负责任使用人工智能与人为限制模型能力之间的讨论。这个问题对Anthropic尤为关键，该公司目前正为未来的IPO做准备，并试图维持投资者的信心。未来，该公司必须建立明确的界限，以防止用户流失到竞争平台。 **来源：** * [https://www.wired.com/story/anthropic-claud-fable-5-backlash-safety-restrictions](https://www.wired.com/story/anthropic-claud-fable-5-backlash-safety-restrictions) * [https://www.moneycontrol.com/news/technology/why-anthropics-mythos-class-claude-fable-5-faced-backlash-from-developers-researchers-12745311.html](https://www.google.com/search?q=https%3A%2F%2Fwww.moneycontrol.com%2Fnews%2Ftechnology%2Fwhy-anthropics-mythos-class-claude-fable-5-faced-backlash-from-developers-researchers-12745311.html)

查看原文

🤖 Anthropic就Claude Fable 5隐藏限制致歉

相似文章

Anthropic收回了一项‘破坏’研究人员工作的政策（2分钟阅读）

Anthropic 承认秘密限制用户训练竞争模型时 Claude Fable 5 的性能，在研究人员强烈反对后撤回决定

Anthropic撤回了一项可能‘阻挠’使用Claude的AI研究人员的政策

Anthropic为隐形Claude Fable护栏道歉

Anthropic 撤回了一项可能‘破坏’使用 Claude 的 AI 研究人员的政策

提交意见反馈