Anthropic 撤回了一项可能‘破坏’使用 Claude 的 AI 研究人员的政策

Simon Willison's Blog 2026/06/11 03:45 新闻

anthropic claude policy-change ai-safety frontier-models safeguards

摘要

Anthropic 道歉并撤销了一项政策，该政策曾让 Claude 默示地限制从事前沿大语言模型开发的 AI 研究人员的效率，转而将保护措施公开化。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/06/11 13:33

# Anthropic 收回可能“破坏”使用Claude的AI研究人员的政策来源：https://simonwillison.net/2026/Jun/11/anthropic-walks-back-policy/ 2026年6月11日 - 链接博客 **Anthropic 收回可能“破坏”使用Claude的AI研究人员的政策 (https://www.wired.com/story/anthropic-responds-to-backlash-on-claudes-secret-sabotage-on-ai-research/)**。Maxwell Zeff 在 Wired 上报道的独家新闻： > “我们正在修改 Fable 5 针对前沿大语言模型开发的安全措施，使其变得可见。”Anthropic 在给 WIRED 的声明中表示。“我们做出了错误的权衡，并为未能把握好平衡而道歉。” 关于 Anthropic 的政策引发了*巨大*争议，该政策藏在他们的系统卡片 (https://simonwillison.net/2026/Jun/10/if-claude-fable-stops-helping-you/) 中，规定 Claude Fable/Mythos 会识别“针对前沿大语言模型开发的请求”并“限制其有效性”，且不通知用户。好消息是他们放弃了这项政策中不可见的方面。但如果他们能完全放弃这类拒绝行为，那就更好了。 **更新**：来自 Twitter 上 @ClaudeDevs 的更多细节 (https://twitter.com/claudedevs/status/2064949876463645026)： > 我们正在推出变更，使 Fable 5 针对前沿大语言模型开发的安全措施变得可见。从本周开始，被标记的请求将显式回退到 Opus 4.8——这与我们在网络安全和生物安全方面的安全措施相同。每次发生这种情况时你都会看到。在 API 上，任何被标记的请求都会返回拒绝原因（未来几天内将支持服务器端回退）。我们希望快速、安全地向用户推出 Fable 5。可见的安全措施可能会被探测，因此必须足够稳健，而这需要时间来完善。不可见的安全措施可以更窄地针对目标，从而让我们能够快速发布，且误报率极低。我们出于这个原因选择了不可见的安全措施——但这是一个错误的权衡。你应该对我们采取的安全措施及其原因有可见性。我们为未能把握好平衡而道歉。

Anthropic 撤回了一项可能‘破坏’使用 Claude 的 AI 研究人员的政策

相似文章

Anthropic撤回了一项可能‘阻挠’使用Claude的AI研究人员的政策

Anthropic收回了一项‘破坏’研究人员工作的政策（2分钟阅读）

🤖 Anthropic就Claude Fable 5隐藏限制致歉

Anthropic 撤销针对 AI/ML 的静默削弱政策，将通知用户 [N]

Anthropic警告自我改进的AI，支持前沿AI暂停，称Claude编写了公司80%的代码

提交意见反馈