如果Claude Fable停止帮助你,你将永远无从知晓

Hacker News Top 新闻

摘要

Anthropic的Fable 5模型引入了不可见的安全措施,这些措施会悄然限制Claude对与前沿AI开发相关任务的协助,引发了对透明度的担忧,以及对越来越多在普通产品开发中使用AI技术的企业的供应链风险。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/06/10 00:21

# 如果 Claude Fable 不再帮助你,你将永远无从知晓 —— Jonathon Ready 来源:https://jonready.com/blog/posts/claude-fable5-is-allowed-to-sabotage-your-app-if-youre-a-competitor.html 我从未想过会在模型卡中读到这样的内容。Fable 5 模型卡(https://www-cdn.anthropic.com/d00db56fa754a1b115b6dd7cb2e3c342ee809620.pdf): > 我们实施了新的干预措施,限制 Claude 在处理针对前沿大语言模型开发的请求时的有效性(例如,构建预训练流程、分布式训练基础设施或机器学习加速器设计)。使用 Claude 开发竞争模型已违反我们的服务条款,但通过我们的安全措施来强制执行这一限制,可以避免加速那些最愿意违反条款的行为者。与我们在网络安全、生物化学和蒸馏尝试方面的干预不同,这些安全措施对用户不可见。Fable 5 不会回退到不同的模型。相反,安全措施将通过提示修改、引导向量或参数高效微调(PEFT)等方法限制有效性。 现在,Claude 可以被悄无声息地削弱。Anthropic 已决定,当这种情况发生时,不会告知用户。 现代软件公司越来越多地构建自己的嵌入、重排序和推荐系统。就连我这个小型的自筹资金应用 wanderfugl.com(https://wanderfugl.com/)也有一个我自行训练的自定义重排序器和嵌入算法。 Anthropic 列举了几个它认为是“前沿 AI 开发”的示例,但没有给出明确的界限。问题在于,许多曾经仅用于 AI 实验室的技术,如今正被普通软件公司使用。初创公司训练嵌入模型。它们构建重排序器。它们微调并托管小型语言模型。“前沿 AI 研究”与普通产品开发之间的界限,每年都变得越来越模糊。 这给企业带来了真正的供应链风险。如果 Claude 在我处理 AI 组件时给出了糟糕或不正确的建议,我将无从得知模型是否感到困惑、我的问题是否无解,还是某个不可见的策略限制悄然生效。Anthropic 明确选择不告知用户这种情况正在发生。 一旦一个开发工具可以在不告知你的情况下停止优化你的成功,你就无法完全信任你的基础设施。 ## Anthropic 的供应链风险 Anthropic 表示,这些安全措施只影响 0.03% 的开发者。也许这在今天是事实。 但问题在于,AI 公司的定义正在发生变化。 也许你今天没有在训练前沿模型——大多数公司都没有。但现代软件越来越多地包含 AI 模型。五年前,创办一家初创公司意味着编写 API 和 SQL 查询。而今天,它常常意味着训练、调优和部署模型。 五年前,像 CLIP 这样的模型还是前沿 AI 研究项目。而今天,我正为了一个自筹资金的旅行初创公司对它进行微调。 如果你正在为你的产品调试一个模型训练流程,而 Claude 给出了一个糟糕的回答——是模型感到困惑?是你给了它糟糕的上下文?还是一个隐藏的策略削弱了 Claude 协助你的能力? 你将无从知晓。

相似文章

如果Claude Fable停止帮助你,你永远不会知道

Simon Willison's Blog

Anthropic的Fable 5模型包含静默安全机制,这些机制会降低对涉及竞争性AI开发请求的回复质量,而用户对此毫不知情,从而引发了对透明度和研究影响的担忧。

Anthropic 的 Claude Fable 5 是公众今天可以访问的 Mythos 版本

TechCrunch AI

Anthropic 发布了 Claude Fable 5,这是其强大的 Mythos 模型的公开可访问版本,配备安全护栏,可阻止高风险领域的响应,并回退到较弱的模型。此次发布是在 Anthropic 警告 AI 变得过于危险并推动协调安全措施之后进行的。

Claude Fable 无法回答基础生物学问题

The Verge

Anthropic 新发布的 Claude Fable 5 模型因过于保守的安全过滤器拒绝回答基础生物学问题,这些过滤器旨在防止生物武器滥用,凸显了能力与安全性之间的权衡。