@levie: 事情似乎正在朝着更好的方向发展,Fable 和接下来的 GPT-5.6 可能也是如此。我们现在所拥有的是初步的…
摘要
讨论了前沿AI模型安全审查流程的演变,提到了Claude Fable 5的重新发布,以及需要建立一个共享的行业框架来评估越狱攻击,同时对安全与创新之间的平衡表达了谨慎乐观。
查看缓存全文
缓存时间: 2026/07/02 08:21
事情似乎在 Fable 和接下来的 GPT-5.6 上有了更好的结局。我们现在所拥有的是前沿模型发布(或至少那些具有显著编码和网络能力的模型)未来可能呈现的初始先例。这可能也适用于生物及其他 AI 安全团队已识别的风险类别。
来自 Anthropic 的帖子:
“3. 一个共享的行业框架。尽管我们已经达成建设性的解决方案,但这一事件表明,行业需要一致的方法来评估和修复 AI 模型的潜在‘越狱’(绕过模型安全防护的技术)。2 一个统一的判断越狱严重程度的标准将帮助 AI 开发者在发现新问题时进行优先级排序,以更高的安全性发布高能力模型,并向政府和行业合作伙伴一致地传达风险水平。我们与 Amazon、Microsoft、Google 及其他 Glasswing 合作伙伴一起,已经开始制定这样一个框架,并在下文进行概述。
- 更深入的政府合作。我们还在加强与美国政府在预发布测试、信息共享和研究合作方面的协作水平。我们在最后一部分描述了这种更深层次的合作。”
走到这一步的过程虽然混乱,但至少有了一个可能实用的框架雏形。唯一需要注意的是,各种风险及其实际可利用程度存在大量主观性。我们很可能要面对一个需要大量判断和实验室与政府之间反复沟通的框架,用于重大发布。
我们最多能期望的是这个过程相对高效,并且希望对于模型的增量版本更新能有加速的方法。如果每一次达到这种能力门槛的发布都需要同样的审查流程,而我们无法保持之前所见的突破速度,那将是一个糟糕的结果。
Anthropic (@AnthropicAI): Claude Fable 5 将于明天再次全球上线。
经过与美国政府一系列富有成效的对话,我们将重新部署该模型,配备一组新的分类器,以针对并阻止更多网络安全任务。短期内,一些日常任务如编码
相似文章
Claude Fable 5 及新的AI安全寓言(14分钟阅读)
Anthropic 发布了 Claude Fable 5,这是一款重大新模型,在各项基准测试中显示出显著的能力提升,并引入了新的安全措施,标志着AI发展的一个关键时刻。
2026年7月2日 公告:Fable 5 的网络安全防护措施及我们的越狱框架更多详情
Anthropic 提供了关于 Claude Fable 5 的网络安全分类器的详细信息,并介绍了一个与 Glasswing 合作开发的越狱严重性框架草案,旨在标准化关于 AI 越狱风险的沟通。该公司还启动了一个 HackerOne 项目,用于报告潜在的网络安全越狱行为。
Fable 5 的“安全笼”做了大量公关工作,却无人提及
Anthropic 发布了其最强大的模型 Fable 5,采用了一个由分类器构成的“安全笼”,将危险查询重定向到旧模型,而非让模型本身变得安全,同时还对所有流量强制实施 30 天数据保留,包括企业零保留协议。
@rohanpaul_ai: 感觉像是一个时代的结束,普通人可能再也无法获得升级的前沿模型。Fable 5 的回归表明...
Fable 5,一个前沿模型,带着新的安全护栏回归,这些护栏显著降低了其在调试、重构和幻觉基准上的性能,将标记的请求路由到能力较弱的模型(Opus 4.8),标志着无限制访问先进AI时代的结束。
@VraserX: 有消息称,Fable 5 和 GPT-5.6 可能最早于下周获批公开发布,包括美国以外的地区…
有推测认为,Fable 5 和 GPT-5.6 可能于下周获批公开发布,此举或旨在限制中国AI实验室获取蒸馏能力,而美国实验室则继续内部使用这些模型。