如果Claude Fable停止帮助你,你将永远无从知晓
摘要
Anthropic的Fable 5模型引入了不可见的安全措施,这些措施会悄然限制Claude对与前沿AI开发相关任务的协助,引发了对透明度的担忧,以及对越来越多在普通产品开发中使用AI技术的企业的供应链风险。
暂无内容
查看缓存全文
缓存时间: 2026/06/10 00:21
# 如果 Claude Fable 不再帮助你,你将永远无从知晓 —— Jonathon Ready
来源:https://jonready.com/blog/posts/claude-fable5-is-allowed-to-sabotage-your-app-if-youre-a-competitor.html
我从未想过会在模型卡中读到这样的内容。Fable 5 模型卡(https://www-cdn.anthropic.com/d00db56fa754a1b115b6dd7cb2e3c342ee809620.pdf):
> 我们实施了新的干预措施,限制 Claude 在处理针对前沿大语言模型开发的请求时的有效性(例如,构建预训练流程、分布式训练基础设施或机器学习加速器设计)。使用 Claude 开发竞争模型已违反我们的服务条款,但通过我们的安全措施来强制执行这一限制,可以避免加速那些最愿意违反条款的行为者。与我们在网络安全、生物化学和蒸馏尝试方面的干预不同,这些安全措施对用户不可见。Fable 5 不会回退到不同的模型。相反,安全措施将通过提示修改、引导向量或参数高效微调(PEFT)等方法限制有效性。
现在,Claude 可以被悄无声息地削弱。Anthropic 已决定,当这种情况发生时,不会告知用户。
现代软件公司越来越多地构建自己的嵌入、重排序和推荐系统。就连我这个小型的自筹资金应用 wanderfugl.com(https://wanderfugl.com/)也有一个我自行训练的自定义重排序器和嵌入算法。
Anthropic 列举了几个它认为是“前沿 AI 开发”的示例,但没有给出明确的界限。问题在于,许多曾经仅用于 AI 实验室的技术,如今正被普通软件公司使用。初创公司训练嵌入模型。它们构建重排序器。它们微调并托管小型语言模型。“前沿 AI 研究”与普通产品开发之间的界限,每年都变得越来越模糊。
这给企业带来了真正的供应链风险。如果 Claude 在我处理 AI 组件时给出了糟糕或不正确的建议,我将无从得知模型是否感到困惑、我的问题是否无解,还是某个不可见的策略限制悄然生效。Anthropic 明确选择不告知用户这种情况正在发生。
一旦一个开发工具可以在不告知你的情况下停止优化你的成功,你就无法完全信任你的基础设施。
## Anthropic 的供应链风险
Anthropic 表示,这些安全措施只影响 0.03% 的开发者。也许这在今天是事实。
但问题在于,AI 公司的定义正在发生变化。
也许你今天没有在训练前沿模型——大多数公司都没有。但现代软件越来越多地包含 AI 模型。五年前,创办一家初创公司意味着编写 API 和 SQL 查询。而今天,它常常意味着训练、调优和部署模型。
五年前,像 CLIP 这样的模型还是前沿 AI 研究项目。而今天,我正为了一个自筹资金的旅行初创公司对它进行微调。
如果你正在为你的产品调试一个模型训练流程,而 Claude 给出了一个糟糕的回答——是模型感到困惑?是你给了它糟糕的上下文?还是一个隐藏的策略削弱了 Claude 协助你的能力?
你将无从知晓。
相似文章
如果Claude Fable停止帮助你,你永远不会知道
Anthropic的Fable 5模型包含静默安全机制,这些机制会降低对涉及竞争性AI开发请求的回复质量,而用户对此毫不知情,从而引发了对透明度和研究影响的担忧。
Anthropic 在 fable 5 中构建了一个隐藏开关,使其在构建AI系统方面表现不佳
Anthropic 悄无声息地实施了一些干预措施,限制了 Claude 在构建竞争性AI系统方面的有效性,这些措施通过对一小部分流量进行提示修改和引导向量,作为防止其模型被未经授权用于开发前沿LLM的安全手段。
Anthropic 的 Claude Fable 5 是公众今天可以访问的 Mythos 版本
Anthropic 发布了 Claude Fable 5,这是其强大的 Mythos 模型的公开可访问版本,配备安全护栏,可阻止高风险领域的响应,并回退到较弱的模型。此次发布是在 Anthropic 警告 AI 变得过于危险并推动协调安全措施之后进行的。
Claude Fable 5 及新的AI安全寓言(14分钟阅读)
Anthropic 发布了 Claude Fable 5,这是一款重大新模型,在各项基准测试中显示出显著的能力提升,并引入了新的安全措施,标志着AI发展的一个关键时刻。
Claude Fable 无法回答基础生物学问题
Anthropic 新发布的 Claude Fable 5 模型因过于保守的安全过滤器拒绝回答基础生物学问题,这些过滤器旨在防止生物武器滥用,凸显了能力与安全性之间的权衡。