@levie: 事情似乎正在朝着更好的方向发展,Fable 和接下来的 GPT-5.6 可能也是如此。我们现在所拥有的是初步的…

X AI KOLs Following 新闻

摘要

讨论了前沿AI模型安全审查流程的演变,提到了Claude Fable 5的重新发布,以及需要建立一个共享的行业框架来评估越狱攻击,同时对安全与创新之间的平衡表达了谨慎乐观。

事情似乎正在朝着更好的方向发展,Fable 和接下来的 GPT-5.6 可能也是如此。我们现在所拥有的是一个初步的先例,预示着未来前沿模型发布(或至少那些具备显著编码和网络能力的模型)可能采取的模式。这预计也将适用于AI安全团体已识别的生物及其他风险类别。 摘自Anthropic的博文: “3. 共享行业框架。尽管我们已达成建设性解决方案,但这些事件表明行业需要一种一致的方法来评估和修复AI模型的潜在‘越狱’攻击(绕过模型安全防护的技术)。2 一个用于判断特定越狱严重程度的共享标准,将有助于AI开发者在问题出现时进行分类,更安全地发布高能力模型,并向政府和行业合作伙伴一致传达风险水平。我们已与亚马逊、微软、谷歌及其他Glasswing合作伙伴共同开始制定这一框架,下文将概述其内容。 4. 更深层次的政府协作。我们还将加强与美国政府在预发布测试、信息共享和研究合作方面的协作。我们在最后一部分中描述了这一更深层次的合作。” 走到这一步的过程虽然混乱,但至少形成了一个可能具有实用性的框架框架。唯一需要注意的是,各种风险及其实际可利用程度存在大量主观因素。我们很可能要在一个需要大量判断、实验室与政府之间反复沟通的框架下进行重大发布。 我们所能期望的最佳结果是这一流程相对高效,并且希望对于模型的增量版本更新能有加速方式。如果每次达到能力阈值后的发布都需要相同的审查流程,而我们所看到的那种突破速度无法保持,那将是一个糟糕的结果。
查看原文
查看缓存全文

缓存时间: 2026/07/02 08:21

事情似乎在 Fable 和接下来的 GPT-5.6 上有了更好的结局。我们现在所拥有的是前沿模型发布(或至少那些具有显著编码和网络能力的模型)未来可能呈现的初始先例。这可能也适用于生物及其他 AI 安全团队已识别的风险类别。

来自 Anthropic 的帖子:

“3. 一个共享的行业框架。尽管我们已经达成建设性的解决方案,但这一事件表明,行业需要一致的方法来评估和修复 AI 模型的潜在‘越狱’(绕过模型安全防护的技术)。2 一个统一的判断越狱严重程度的标准将帮助 AI 开发者在发现新问题时进行优先级排序,以更高的安全性发布高能力模型,并向政府和行业合作伙伴一致地传达风险水平。我们与 Amazon、Microsoft、Google 及其他 Glasswing 合作伙伴一起,已经开始制定这样一个框架,并在下文进行概述。

  1. 更深入的政府合作。我们还在加强与美国政府在预发布测试、信息共享和研究合作方面的协作水平。我们在最后一部分描述了这种更深层次的合作。”

走到这一步的过程虽然混乱,但至少有了一个可能实用的框架雏形。唯一需要注意的是,各种风险及其实际可利用程度存在大量主观性。我们很可能要面对一个需要大量判断和实验室与政府之间反复沟通的框架,用于重大发布。

我们最多能期望的是这个过程相对高效,并且希望对于模型的增量版本更新能有加速的方法。如果每一次达到这种能力门槛的发布都需要同样的审查流程,而我们无法保持之前所见的突破速度,那将是一个糟糕的结果。

Anthropic (@AnthropicAI): Claude Fable 5 将于明天再次全球上线。

经过与美国政府一系列富有成效的对话,我们将重新部署该模型,配备一组新的分类器,以针对并阻止更多网络安全任务。短期内,一些日常任务如编码

相似文章

Fable 5 的“安全笼”做了大量公关工作,却无人提及

Reddit r/ArtificialInteligence

Anthropic 发布了其最强大的模型 Fable 5,采用了一个由分类器构成的“安全笼”,将危险查询重定向到旧模型,而非让模型本身变得安全,同时还对所有流量强制实施 30 天数据保留,包括企业零保留协议。