Anthropic的新模型Fable将悄然削弱LLM相关工作[D]

Reddit r/MachineLearning 2026/06/10 14:14 模型

anthropic fable llm safety-measures model-limitations invisible-safeguards steer-vectors

摘要

Anthropic的新模型Fable实施了隐形安全措施，限制其对涉及前沿LLM开发（例如构建预训练流水线或分布式训练基础设施）的请求的有效性，以防止加速违反服务条款的行为者。

看起来他们设计了一些被广泛引用的特定限制，如下所述： > 鉴于最新模型能够加速自身发展，我们实施了新的干预措施，以限制Claude针对前沿LLM开发（例如构建预训练流水线、分布式训练基础设施或ML加速器设计）请求的有效性。使用Claude开发竞争模型已违反我们的服务条款，但通过安全措施强制执行此限制，可避免加速那些最愿意违反这些条款的行为者。 > 与我们在网络安全、生物与化学以及蒸馏尝试方面的干预措施不同，这些安全措施对用户不可见。Fable 5不会回退到其他模型。相反，这些安全措施将通过提示修改、引导向量或参数高效微调（PEFT）等方法限制有效性。这些干预措施不会影响绝大多数编码工作。我们估计它们将影响约0.03%的流量，集中在不到0.1%的组织中 https://news.ycombinator.com/item?id=48464732 其他评论指出，即使在科学研究语境中使用“nuclear”一词，也会引发模型的拒绝行为：https://news.ycombinator.com/item?id=48473302 这使得模型可能微妙地破坏任何机器学习工作（即使是误报）的说法看起来相当合理。有人认为这已经在幕后发生了一段时间，但有人能证实吗？

查看原文

Anthropic的新模型Fable将悄然削弱LLM相关工作[D]

相似文章

Anthropic 在被要求开发其他 LLM 时故意削弱 Fable

Anthropic 在 fable 5 中构建了一个隐藏开关，使其在构建AI系统方面表现不佳

Fable在AI研究活动中被故意大幅削弱

如果Claude Fable停止帮助你，你永远不会知道

Anthropic收回了一项‘破坏’研究人员工作的政策（2分钟阅读）

提交意见反馈