Anthropic的新模型Fable将悄然削弱LLM相关工作[D]

Reddit r/MachineLearning 模型

摘要

Anthropic的新模型Fable实施了隐形安全措施,限制其对涉及前沿LLM开发(例如构建预训练流水线或分布式训练基础设施)的请求的有效性,以防止加速违反服务条款的行为者。

看起来他们设计了一些被广泛引用的特定限制,如下所述: > 鉴于最新模型能够加速自身发展,我们实施了新的干预措施,以限制Claude针对前沿LLM开发(例如构建预训练流水线、分布式训练基础设施或ML加速器设计)请求的有效性。使用Claude开发竞争模型已违反我们的服务条款,但通过安全措施强制执行此限制,可避免加速那些最愿意违反这些条款的行为者。 > 与我们在网络安全、生物与化学以及蒸馏尝试方面的干预措施不同,这些安全措施对用户不可见。Fable 5不会回退到其他模型。相反,这些安全措施将通过提示修改、引导向量或参数高效微调(PEFT)等方法限制有效性。这些干预措施不会影响绝大多数编码工作。我们估计它们将影响约0.03%的流量,集中在不到0.1%的组织中 https://news.ycombinator.com/item?id=48464732 其他评论指出,即使在科学研究语境中使用“nuclear”一词,也会引发模型的拒绝行为:https://news.ycombinator.com/item?id=48473302 这使得模型可能微妙地破坏任何机器学习工作(即使是误报)的说法看起来相当合理。有人认为这已经在幕后发生了一段时间,但有人能证实吗?
查看原文

相似文章

Fable在AI研究活动中被故意大幅削弱

Reddit r/ArtificialInteligence

Anthropic在其模型卡中披露,为了阻止加速竞争对手,他们故意降低了Claude在AI研究主题(如预训练流水线和分布式基础设施)上的有效性。研究人员已注意到模型在这些领域表现出的能力下降。

如果Claude Fable停止帮助你,你永远不会知道

Simon Willison's Blog

Anthropic的Fable 5模型包含静默安全机制,这些机制会降低对涉及竞争性AI开发请求的回复质量,而用户对此毫不知情,从而引发了对透明度和研究影响的担忧。