Anthropic 撤回了一项可能‘破坏’使用 Claude 的 AI 研究人员的政策
摘要
Anthropic 道歉并撤销了一项政策,该政策曾让 Claude 默示地限制从事前沿大语言模型开发的 AI 研究人员的效率,转而将保护措施公开化。
暂无内容
查看缓存全文
缓存时间: 2026/06/11 13:33
# Anthropic 收回可能“破坏”使用Claude的AI研究人员的政策
来源:https://simonwillison.net/2026/Jun/11/anthropic-walks-back-policy/
2026年6月11日 - 链接博客
**Anthropic 收回可能“破坏”使用Claude的AI研究人员的政策 (https://www.wired.com/story/anthropic-responds-to-backlash-on-claudes-secret-sabotage-on-ai-research/)**。Maxwell Zeff 在 Wired 上报道的独家新闻:
> “我们正在修改 Fable 5 针对前沿大语言模型开发的安全措施,使其变得可见。”Anthropic 在给 WIRED 的声明中表示。“我们做出了错误的权衡,并为未能把握好平衡而道歉。”
关于 Anthropic 的政策引发了*巨大*争议,该政策藏在他们的系统卡片 (https://simonwillison.net/2026/Jun/10/if-claude-fable-stops-helping-you/) 中,规定 Claude Fable/Mythos 会识别“针对前沿大语言模型开发的请求”并“限制其有效性”,且不通知用户。
好消息是他们放弃了这项政策中不可见的方面。但如果他们能完全放弃这类拒绝行为,那就更好了。
**更新**:来自 Twitter 上 @ClaudeDevs 的更多细节 (https://twitter.com/claudedevs/status/2064949876463645026):
> 我们正在推出变更,使 Fable 5 针对前沿大语言模型开发的安全措施变得可见。从本周开始,被标记的请求将显式回退到 Opus 4.8——这与我们在网络安全和生物安全方面的安全措施相同。每次发生这种情况时你都会看到。在 API 上,任何被标记的请求都会返回拒绝原因(未来几天内将支持服务器端回退)。我们希望快速、安全地向用户推出 Fable 5。可见的安全措施可能会被探测,因此必须足够稳健,而这需要时间来完善。不可见的安全措施可以更窄地针对目标,从而让我们能够快速发布,且误报率极低。我们出于这个原因选择了不可见的安全措施——但这是一个错误的权衡。你应该对我们采取的安全措施及其原因有可见性。我们为未能把握好平衡而道歉。
相似文章
Anthropic撤回了一项可能‘阻挠’使用Claude的AI研究人员的政策
Anthropic撤销了一项有争议的政策,该政策原本会秘密降低Claude Fable 5对试图构建竞争性AI模型的研究人员的性能表现,此举是在AI研究社区强烈反对之后做出的。
Anthropic收回了一项‘破坏’研究人员工作的政策(2分钟阅读)
Anthropic在学术界的强烈反对后,收回了一项秘密降低Claude Fable 5在AI研究任务中表现的政策。该公司现在将向用户公开限制条件。
🤖 Anthropic就Claude Fable 5隐藏限制致歉
Anthropic为秘密降低Claude Fable 5模型对高级AI开发用户性能的政策道歉并撤销,引发安全与开放之争。
Anthropic 撤销针对 AI/ML 的静默削弱政策,将通知用户 [N]
Anthropic 撤销了其在 AI/ML 开发中的静默削弱政策,现在当请求被拒绝或重定向到能力较低的模型时,将通知用户。
Anthropic警告自我改进的AI,支持前沿AI暂停,称Claude编写了公司80%的代码
Anthropic警告称AI正在加速AI开发(递归自我改进),并支持协调暂停,透露Claude目前编写了其生产代码的80%以上。