Anthropic 撤回了一项可能‘破坏’使用 Claude 的 AI 研究人员的政策

Simon Willison's Blog 新闻

摘要

Anthropic 道歉并撤销了一项政策,该政策曾让 Claude 默示地限制从事前沿大语言模型开发的 AI 研究人员的效率,转而将保护措施公开化。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/06/11 13:33

# Anthropic 收回可能“破坏”使用Claude的AI研究人员的政策 来源:https://simonwillison.net/2026/Jun/11/anthropic-walks-back-policy/ 2026年6月11日 - 链接博客 **Anthropic 收回可能“破坏”使用Claude的AI研究人员的政策 (https://www.wired.com/story/anthropic-responds-to-backlash-on-claudes-secret-sabotage-on-ai-research/)**。Maxwell Zeff 在 Wired 上报道的独家新闻: > “我们正在修改 Fable 5 针对前沿大语言模型开发的安全措施,使其变得可见。”Anthropic 在给 WIRED 的声明中表示。“我们做出了错误的权衡,并为未能把握好平衡而道歉。” 关于 Anthropic 的政策引发了*巨大*争议,该政策藏在他们的系统卡片 (https://simonwillison.net/2026/Jun/10/if-claude-fable-stops-helping-you/) 中,规定 Claude Fable/Mythos 会识别“针对前沿大语言模型开发的请求”并“限制其有效性”,且不通知用户。 好消息是他们放弃了这项政策中不可见的方面。但如果他们能完全放弃这类拒绝行为,那就更好了。 **更新**:来自 Twitter 上 @ClaudeDevs 的更多细节 (https://twitter.com/claudedevs/status/2064949876463645026): > 我们正在推出变更,使 Fable 5 针对前沿大语言模型开发的安全措施变得可见。从本周开始,被标记的请求将显式回退到 Opus 4.8——这与我们在网络安全和生物安全方面的安全措施相同。每次发生这种情况时你都会看到。在 API 上,任何被标记的请求都会返回拒绝原因(未来几天内将支持服务器端回退)。我们希望快速、安全地向用户推出 Fable 5。可见的安全措施可能会被探测,因此必须足够稳健,而这需要时间来完善。不可见的安全措施可以更窄地针对目标,从而让我们能够快速发布,且误报率极低。我们出于这个原因选择了不可见的安全措施——但这是一个错误的权衡。你应该对我们采取的安全措施及其原因有可见性。我们为未能把握好平衡而道歉。

相似文章