大多数对 Fable 5 进行逆向工程的尝试都抓错了重点
摘要
本文批评了通过复制表面行为来逆向工程 Fable 5 的尝试,转而介绍了 Hephaestus Stormbreaker——一个针对编码智能体的鲁棒性控制层,它强制进行范围锁定、证据循环、回归测试和关卡检查,以防止智能体漂移和过早退出。
现在有很多人试图对 Fable 5 进行逆向工程。包装器。提示包。“长周期智能体”脚手架。那些试图从外部看起来像 Fable 的工具。我认为这些大多方向不对。如果 Fable 5 只是一个提示模式或包装器,它早该被克隆了。真正的问题不在于外观。真正的问题在于鲁棒性。大多数编码智能体一开始看起来不错。然后问题就暴露了。
- 范围开始漂移
- 公开测试成了终点线
- 边缘情况没有变成回归测试
- “已验证”只是感觉,而非证据
- 最后一步过早退出
- 长循环逐渐丢失实际任务
所以我们构建了 Hephaestus Stormbreaker。Stormbreaker 不是一个新模型。它不是 Fable 5 的克隆。也不是另一个基准测试包装的 cosplay 项目。Stormbreaker 是编码智能体的鲁棒性控制层。它强制智能体:
- 锁定范围
- 锁定计划
- 运行证据循环
- 从问题中推导回归测试
- 区分公开测试通过和私有预言验证
- 在停止前通过最终关卡
换句话说,它并非试图让智能体“看起来更聪明”。它试图让智能体更难脱轨。结果也指向这个方向。仅从原始正确性来看,Stormbreaker 无法宣称绝对胜利。这不是重点。本地 Codex 在短期的本地编码任务上已经很强。差异出现在衡量操作鲁棒性时。
平均验证宏观分数:
- 本地 Codex: 76.48
- Hephaestus Network 基线: 92.22
- Hephaestus Stormbreaker: 99.26
指标敏感性分析是关键。仅基于正确性的指标否定了 Stormbreaker 的优越性声明。很好。但所有 6 个过程感知的操作指标保持了相同的顺序:本地 < 基线 < Stormbreaker
我们还运行了配对任务单元验证,这样重复运行就不会被视为虚假的独立样本。局部操作阶梯仍然成立。
我的看法:如果你想“逆向工程 Fable 5”,停止复制表面。构建一层,防止智能体漂移、跳过证据、忽略回归和过早退出。模型竞赛将继续。但真正的工程工作需要那些能够保持在范围内、保留证据、验证自身输出并干净完成的智能体。这就是 Hephaestus Stormbreaker 的用途。
相似文章
我用了半天的Fable 5,发现护栏才是真正的故事
Anthropic的Fable 5模型展现了令人印象深刻的推理和上下文处理能力,但存在高延迟、高成本以及在特定领域静默回退到Opus 4.8的问题,这可能会中断工作流程。
Fable 5 的护栏在48小时内被绕过。这对构建面向客户的AI的人来说意味着什么。
Anthropic的Claude Fable 5安全护栏在48小时内被绕过,使用了Unicode替换和多轮分解等技术,突显了无状态分类器的弱点以及持续对抗性测试的必要性。
Fable 5 出口管制损害美国网络防御
文章认为,对类似 Claude Fable 5 的 AI 模型实施出口管制,会通过禁止修复代码漏洞的能力来损害美国网络安全,而修复漏洞对防御性安全至关重要。这些管制基于对 AI 能力的误解。
联邦政府因简单“修复此代码”提示对Fable 5感到恐慌,而非越狱
美国政府因研究人员使用简单的“修复此代码”提示而封锁了Anthropic的Fable 5和Mythos模型,但安全专家Katie Moussouris认为这并非越狱,并指出出口管制损害了网络安全防御者。
Fable 5 的真正故事在于数据保留条款
Anthropic 的 Claude Fable 5 版本之所以引人注目,不仅在于其能力,还在于其受控访问、数据保留策略和基础设施要求,这标志着向受控前沿 AI 部署的转变。