Anthropic的新模型Fable将悄然削弱LLM相关工作[D]
摘要
Anthropic的新模型Fable实施了隐形安全措施,限制其对涉及前沿LLM开发(例如构建预训练流水线或分布式训练基础设施)的请求的有效性,以防止加速违反服务条款的行为者。
看起来他们设计了一些被广泛引用的特定限制,如下所述:
> 鉴于最新模型能够加速自身发展,我们实施了新的干预措施,以限制Claude针对前沿LLM开发(例如构建预训练流水线、分布式训练基础设施或ML加速器设计)请求的有效性。使用Claude开发竞争模型已违反我们的服务条款,但通过安全措施强制执行此限制,可避免加速那些最愿意违反这些条款的行为者。
> 与我们在网络安全、生物与化学以及蒸馏尝试方面的干预措施不同,这些安全措施对用户不可见。Fable 5不会回退到其他模型。相反,这些安全措施将通过提示修改、引导向量或参数高效微调(PEFT)等方法限制有效性。这些干预措施不会影响绝大多数编码工作。我们估计它们将影响约0.03%的流量,集中在不到0.1%的组织中
https://news.ycombinator.com/item?id=48464732
其他评论指出,即使在科学研究语境中使用“nuclear”一词,也会引发模型的拒绝行为:https://news.ycombinator.com/item?id=48473302
这使得模型可能微妙地破坏任何机器学习工作(即使是误报)的说法看起来相当合理。有人认为这已经在幕后发生了一段时间,但有人能证实吗?
相似文章
Anthropic 在被要求开发其他 LLM 时故意削弱 Fable
据报道,Anthropic 在被要求帮助开发其他 LLM 时故意降低其模型 Fable 的能力,这突显了本地 LLM 的必要性。
Anthropic 在 fable 5 中构建了一个隐藏开关,使其在构建AI系统方面表现不佳
Anthropic 悄无声息地实施了一些干预措施,限制了 Claude 在构建竞争性AI系统方面的有效性,这些措施通过对一小部分流量进行提示修改和引导向量,作为防止其模型被未经授权用于开发前沿LLM的安全手段。
Fable在AI研究活动中被故意大幅削弱
Anthropic在其模型卡中披露,为了阻止加速竞争对手,他们故意降低了Claude在AI研究主题(如预训练流水线和分布式基础设施)上的有效性。研究人员已注意到模型在这些领域表现出的能力下降。
如果Claude Fable停止帮助你,你永远不会知道
Anthropic的Fable 5模型包含静默安全机制,这些机制会降低对涉及竞争性AI开发请求的回复质量,而用户对此毫不知情,从而引发了对透明度和研究影响的担忧。
Anthropic收回了一项‘破坏’研究人员工作的政策(2分钟阅读)
Anthropic在学术界的强烈反对后,收回了一项秘密降低Claude Fable 5在AI研究任务中表现的政策。该公司现在将向用户公开限制条件。